'Sarsa' 태그의 글 목록

N STEP SARSA On-Policy def gen_epsilon_greedy_policy(n_action, epsilon): def policy_function(state, Q): probs = torch.ones(n_action) * epsilon / n_action best_action = torch.argmax(Q[state]).item() probs[best_action] += 1.0 - epsilon action = torch.multinomial(probs, 1).item() return action return policy_function from collections import defaultdict def n_step_sarsa(env, gamma, n_episode, alpha ,..

강화학습에서 빠르게 코드 비교를 해봤다. 거의 비슷하지만, 다른 부분이 있는 코드들인데, 어떤 식으로 다른지를 보고 싶었다. 막상 비교해보니 큰 차이는 없다는 것을 확인했다. Model-dependent and model-free reinforcement learning Model-dependent RL algorithms은 transition table이 있어야 작동을 한다. transition table은 에이전트가 존재하는 세계에서 성공하기 위해 필요한 모든 지식을 갖춘 테이블이라고 생각하면 된다. 당연히 그러한 테이블을 만드는 것은 매우 지루하며, 불가능하므로 모델 의존 학습 알고리즘은 실용적이지 못하다. Temporal Difference is a model-free reinforcement l..

AI 도구

AI 도구 사이드 패널

티스토리툴바