On-Policy와 Off-Policy Learning의 차이
최근에 on policy와 off policy learning의 차이점에 대한 의견을 나눌 때 잘 몰라서 가만히 있었다. 그래서 궁금해서 찾아보니 헷갈리는 사람이 또 있는 것 같았다. 그 사람은 Artificial intelligence 책에서 이렇게 설명하는데 차이점을 이해를 못하겠다고 한다. "An off-policy learner learns the value of the optimal policy independently of the agent's actions. Q-learning is an off-policy learner. An on-policy learner learns the value of the policy being carried out by the agent including th..
2020.07.11