N-STEP On-Policy SARSA, N-STEP Off-Policy SARSA wiht Importance Sampling, N-STEP Expected SARA 코드 비교해보기
·
관심있는 주제/RL
N STEP SARSA On-Policy def gen_epsilon_greedy_policy(n_action, epsilon): def policy_function(state, Q): probs = torch.ones(n_action) * epsilon / n_action best_action = torch.argmax(Q[state]).item() probs[best_action] += 1.0 - epsilon action = torch.multinomial(probs, 1).item() return action return policy_function from collections import defaultdict def n_step_sarsa(env, gamma, n_episode, alpha ,..
Sarsa, Q-Learning , Expected Sarsa, Double Q-Learning 코드 비교하기
·
관심있는 주제/RL
강화학습에서 빠르게 코드 비교를 해봤다. 거의 비슷하지만, 다른 부분이 있는 코드들인데, 어떤 식으로 다른지를 보고 싶었다. 막상 비교해보니 큰 차이는 없다는 것을 확인했다. Model-dependent and model-free reinforcement learning Model-dependent RL algorithms은 transition table이 있어야 작동을 한다. transition table은 에이전트가 존재하는 세계에서 성공하기 위해 필요한 모든 지식을 갖춘 테이블이라고 생각하면 된다. 당연히 그러한 테이블을 만드는 것은 매우 지루하며, 불가능하므로 모델 의존 학습 알고리즘은 실용적이지 못하다. Temporal Difference is a model-free reinforcement l..

AI 도구

AI 도구 사이드 패널

아래 AI 서비스 중 하나를 선택하여 블로그를 보면서 동시에 사용해보세요.

API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다
API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다
API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다
URL과 모델을 입력하세요설정을 저장하려면 저장 버튼을 클릭하세요설정이 저장되었습니다