'관심있는 주제/RL' 카테고리의 글 목록 (2 Page)

RL) DuelingDQN 알아보기

기존의 Double DQN이라는 것이 있었는데, 이 논문에선 advantage function을 도입하여 성능을 더 향상한 논문이라 할 수 있습니다. 가장 큰 특징 Dueling DQN 알고리즘은 Q-VALUE을 값 함수 V (s)와 이점 함수 A (s, a)의 두 부분으로 나눕니다. 여기서는 advatange function과 value function이 동시에 존재한다해서 dueling이라고 한다고 합니다. 직관적으로, dueling 아키텍처는 각 state에 대한 각 작업의 효과를 학습할 필요 없이 어떤 상태가 가치 있는지(또는 가치가 없는지를) 학습할 수 있습니다. 이는 특히 해당 action이 environment에 관련되는 어떤 방식으로도 영향을 미치지 않는 상태에서 유용합니다. 배경 논문의 ..

2021.06.03

Paper) Reward is Enough 관련 자료

deepmind 에서 낸 논문인 것 같다. deepmind에서 낸 논문이라서 흥미있었지만, 내가 많은 유명한 학자들은 모르지만, David Silver, Richard S.Sutton 두 사람이 있는 것으로 보고, 꼭 봐야할 필요성을 느꼈다. 21/05/31 기준으로 아직 논문을 무료로 다운로드 할 수는 없는 상황이다. 그래도 david silver나 특정 분이 설명을 해주는 영상이 있어 공유를 한다. 아직 잘 모르겠지만, 큰 의미는 각각의 전문화된 에이전트를 구성하지 않아도 충분히 일반화된 에이전트를 구할 수 있다?... 이런 느낌인 것 같다. https://www.youtube.com/watch?v=_MduRkr6r6c https://www.youtube.com/watch?v=dmH1ZpcROMk

2021.05.31

현대 게임 이론이 다중 에이전트 강화 학습 시스템에 미치는 영향 -글 리뷰

"게임 이론 역학은 다중 에이전트 강화 학습 시스템의 모든 곳에 존재합니다. 그것에 대해 무엇을 알아야 합니까?" 오늘날 대부분의 인공 지능 (AI) 시스템은 작업을 처리하는 단일 에이전트 또는 적대적 모델의 경우 시스템의 전반적인 동작을 개선하기 위해 서로 경쟁하는 두 개의 에이전트를 기반으로 합니다. 그러나 현실 세계의 많은 인지 문제는 많은 사람들이 만든 지식의 결과입니다. 예) self-driving car scenario 같은 경우, 모든 에이전트의 결정들은 시나리오에서 다른 많은 에이전트의 행위의 결과입니다. 금융시장이나 경제학에서 많은 시나리오들은 개체들의 많은 그룹 사이에서 조정된 행동들의 결과입니다. 인공 지능 (AI) 에이전트에서 이러한 행동을 어떻게 모방할 수 있습니까? MARL (M..

2021.05.27

RL) Double DQN 알아보기

일단 double dqn을 보기에 앞서 기존의 q-learning과 deep q-learning을 간략하게 그림으로 보여주고 시작하겠다. 간략히 나온 배경에 대해 말하자면, 기존의 있던 deep q learning 같은 경우 action value에 대한 overestimate가 문제였다. 그래서 이 double dqn은 이러한 문제를 해결하기 위해 나온 것이다. 간략하게 핵심만 살펴보자. Double Q-Learning이 무엇인지? Double Q-Learning 알고리즘 Double Deep Q Network(Double DQN) 구현 Double Q-Learning이 무엇인지? double q learning은 [1] H. van Hasselt 2010 이 기존 q-learning에서 action ..

2021.05.09

RL) MARL 설명 자료 -2 Stochastic Games

2021.05.05 - [관심있는 주제/RL] - RL) MARL 설명 자료 -1 도입과 배경 2021.05.06 - [관심있는 주제/RL] - RL) MARL 설명 자료 -2 Stochastic Games 19/97 페이지부터 다시 시작... SHAPLEY라 사람이 말하는 Stochastic games에 논문에 따르면, 두 플레이어에 의해서 지금 위치에서 다음 위치로 플레이가 진행된다고 했을 때, 이 위치라고 하는 것을 우리가 아는 강화학습에서는 States라고 할 수 있다. Stochastics Game은 다중 의사 결정자에 다중 상태를 가진다. 각 상태는 normal-form game을 따른다. 한 라운드 후에, 게임은 임의적으로 다른 상태로 전이됩니다. 추가) normal-form game이란? ..

2021.05.06

RL) MARL 설명 자료 -1 도입과 배경

2018년도 자료 Prof. Jun Wang Computer Science, UCL에 있는 것을 기반으로 개인적인 이해를 위해서 정리를 해보고자 합니다... 2021.05.05 - [관심있는 주제/RL] - RL) MARL 설명 자료 -1 도입과 배경 2021.05.06 - [관심있는 주제/RL] - RL) MARL 설명 자료 -2 Stochastic Games APPLICATION AI Plays Multiplayers Online Games Bidding Machine in Online Advertising Text Generation Difficulty in Multi-agent Learning(MAL) MAL은 기본적으로 어려움 에이전트는 환경과 상호작용할 뿐만 아니라 다른 에이전트와도 상호작용해..

2021.05.05

Env) Multiagnet CityFlow 환경

multiagnet rl 환경 관련 자료 공유 UI도 제공하고 있는 것 같고 배울 것이 많을 것 같아 공유합니다 cityflow.readthedocs.io/en/latest/ Welcome to CityFlow’s documentation! — CityFlow 0.1 documentation © Copyright 2019, CityFlow Revision 75f31b8c. cityflow.readthedocs.io arxiv.org/abs/1905.05217 CityFlow: A Multi-Agent Reinforcement Learning Environment for Large Scale City Traffic Scenario Traffic signal control is an emerging appl..

2021.05.05

RL) Multi Agent RL 관련 자료

mlanctot.info/files/papers/marl-workshop-laber-labs-nov8-2019.pdf www.youtube.com/watch?v=rbZBBTLH32o medium.com/@parnianbrk/understanding-stabilising-experience-replay-for-deep-multi-agent-reinforcement-learning-84b4c04886b5 Understanding “Stabilising Experience Replay for Deep Multi-Agent Reinforcement Learning” In order to understand this paper together, I am going to describe basic concepts ..

2021.04.25

RL) Mean Field Multi-Agent Reinforcement Learning 리뷰

특정 책에서 해당 논문에 대한 언급이 있고, 인용 수도 있는 것 같아서 리뷰해보려고 한다. 해당 논문을 통해서 MARL에 대한 이해도를 높여지길 기대한다. 해당 논문에서는 게임 이론을 적용하여 에이전틔의 정책 선택 문제를 해결하고 있다. 내쉬 균형 이론은 비협력적 게임에서 최적의 행동 정책을 찾기 위하여 중요하게 사용되는 것이고, 내쉬 균형에서 각 에이전트는 다른 에이전트의 행동이 주어졌을 때 다른 에이전트의 전략을 고려하여 최선의 선택을 하는 전략을 이용한다. 하지만 다수의 에이 전트 환경에서 고려할 상호작용의 수가 많아 내쉬 균형 전략을 찾기 어려운 문제가 있다 본 논문에서는 주변의 상호작용을 하나의 평균 상호 작용을 고려하여 문제의 복잡도를 줄인 다음 평균 상호 작용을 고려하여 문제의 복잡도를 줄인..

2021.04.23

RL) ETH Zurich & UC Berkeley Method Automates Deep Reward-Learning by Simulating the Past

리워드 관련 논문... 읽을게 너무 많다. medium.com/syncedreview/eth-zurich-uc-berkeley-method-automates-deep-reward-learning-by-simulating-the-past-f4aa7281b23f ETH Zurich & UC Berkeley Method Automates Deep Reward-Learning by Simulating the Past In the field of reinforcement learning (RL), task specifications are typically designed by experts. Learning from demonstrations and… medium.com arxiv.org/pdf/2104.039..

2021.04.20

RL) Deepmind Reward 관련 글 (EPIC WAY)

medium.com/@deepmindsafetyresearch/an-epic-way-to-evaluate-reward-functions-c2c6d41b61cc An EPIC way to evaluate reward functions How can you tell if you have a good reward function? EPIC provides a fast and reliable way to evaluate reward functions. medium.com 추후 정리...

2021.04.20

RL) REALab: Conceptualising the Tampering Problem 설명

해당 이론이 딥 마인드에서도 중요하게 다루는 것 같은데, 사실 먼가 크게 와 닿지가 않는다 ㅠㅠ 관련된 논문에서 다음과 같은 연구 트렌드가 있었다. 두 개의 새로운 논문에서 우리는 시뮬레이션의 tempering를 연구 첫 번째 논문은 환경 물리학의 자연스러운 부분을 조작하는 REALab이라는 플랫폼을 설명 두 번째 논문은 여러 딥러닝 알고리즘의 temparing 동작을 연구하고 분리된 승인 알고리즘이 이론과 실제 모두에서 temparing를 방지함을 보여줍니다. AI 에이전트에 대한 목표를 제공하는 것은 어려운 문제가 될 수 있습니다. 한가지 어려운 점은 올바른 목적함수를 제시하는 것이다. (the specification gaming problem) 두 번째 어려움은 에이전트가 손상된 버전이 아닌 우리..

2021.04.20

All I Need Is Data.

All I Need Is Data.

태그

최근글

댓글

공지사항

아카이브

관심있는 주제/RL(59)

티스토리툴바