DeepMind(9)
-
논문 리뷰) A Generalist Agent (GATO)
구글에서 일반화되는 에이전트라는 주제로 낸 논문이다. 저자들은 일반화된 이러한 방식을 쓰면, 새롭게 들어온다기보다는 out of distribution에 있는 부분에 대해서도 잘할 것이라고 한다. 즉 완전히 새로운 것보다는 기존에 하던 것 중에서 조금 범위가 넘어가는 것에 대해서 잘할 수 있다고 하는 것 같다. 개인적으로 궁금했던 부분은 인풋과 아웃풋 그리고 손실 함수의 구성 방식이라서 이 부분을 주로 간단하게 보기로 했다. 인풋 기본적으로 인풋 같은 경우 continuous 한 것들을 discrete하게 만들거나 VIT 같은 방식을 도입해서 패치하는 식을 이용했다고 한다. 아직 그래프까지는 커버하는 아키텍처는 아닌 것 같다. continuous 1024개의 uniform unit (여기서는 값 자체보다..
2022.05.25 -
TODO) Deepmind) nowcasting 알아보기
우연히 유튜브를 보다가, 날씨 예측 관련해서 딥마인드가 논문을 냈다는 것을 접하게 됐는데, 내용에서 GAN이 나와서 살펴보려고 한다. 아래 동영상도 어렵지 않게 쉽게 잘 설명해주시는 것 같아서 추천한다. https://www.youtube.com/watch?v=rt0fjq7SSE0 Our latest research and state-of-the-art model advances the science of Precipitation Nowcasting, which is the prediction of rain (and other precipitation phenomena) within the next 1-2 hours. In a paper written in collaboration with the Met..
2021.11.15 -
진행중) Reverb: a framework for experience replay 알아보기
경험(experience)의 활용은 강화 학습(RL)에서 중요한 역할을 한다. 이 데이터를 가장 잘 사용하는 방법은 이 필드의 핵심 문제 중 하나입니다. RL 에이전트가 최근 몇 년 동안 발전하면서 더 크고 복잡한 문제(Atari, Go, StarCraft, Dota)를 처리함에 따라 생성된 데이터의 크기와 복잡성이 모두 증가했습니다. 이러한 복잡성에 대처하기 위해 많은 RL 시스템은 학습 문제를 경험 생산자(행위자)와 경험 소비자(학습자)라는 두 개의 뚜렷한 부분으로 분할하여 이러한 서로 다른 부분을 병렬로 실행할 수 있도록 한다. 데이터 스토리지 시스템은 종종 이 두 구성 요소 사이의 교차점에 있습니다. 데이터를 효율적으로 저장하고 전송하는 방법에 대한 문제 자체가 어려운 엔지니어링 문제입니다. 딥마..
2021.10.07 -
Paper) Perceiver IO (다양한 데이터를 처리할 수 있는 아키텍처)
정리하자면, 딥마인드에서 새로운 논문을 냈고, 내용은 하나의 데이터 타입이 아닌 어떤 데이터셋이 와도 처리할 수 있는 아키텍처를 제안했다. 보통 모델이 한번 잘 적합하게 되면 다른 작업에서는 바꿔서 사용할 수 없는 어려움이 있다. 이 제약은 많은 작업이 시각 및 오디오와 같은 다양한 입력을 필요로 하는 인간 인지와 매우 대조된다고 하며, 최근 DeepMind는 다양한 유형의 입력 데이터 세트를 처리할 수 있는 범용 아키텍처를 공개하는 두 개의 논문을 발표했다. “Perceiver: General Perception with Iterative Attention” “Perceiver IO: A General Architecture for Structured Inputs & Outputs” 첫번째 논문에서는 ..
2021.08.12 -
Paper) Learning to Simulate Complex Physics with Graph Networks (ICML 2020)
deepmind에서 Physics까지 학습하는 논문을 2020년에 냈다 ㄷㄷㄷ 아직 읽어보지는 안았지만, 사실 읽어도 잘 이해 못 할 것 같다. 시간을 두고 확인을 해봐야 할 것 같다. 특히 강화학습에서 이 논문은 참 유용할 것 같다. 왜냐하면 강화 학습을 하기 위해서는 결국 환경이라는 것을 만들어야 하고, 실제 환경과 유사하기 ai가 작동되게 하려면, 에이전트가 실제 환경에서 도는 것처럼 유사한 시뮬레이터를 만들어야 한다. 여기서 가장 장애물로 생각하는 것은 실제 physics를 어떻게 학습해서 ai 모델에게 제공할지가 고민이다. 실제로 physics를 바로 파이썬으로 제공하는 경우는 상관이 없지만, 아마 대부분은 제공하지 않을 텐데, 이것까지 ai로 학습할 수 있다고 하니, 읽어볼 리스트에 넣어 놓고..
2021.06.22 -
Paper) Reward is Enough 관련 자료
deepmind 에서 낸 논문인 것 같다. deepmind에서 낸 논문이라서 흥미있었지만, 내가 많은 유명한 학자들은 모르지만, David Silver, Richard S.Sutton 두 사람이 있는 것으로 보고, 꼭 봐야할 필요성을 느꼈다. 21/05/31 기준으로 아직 논문을 무료로 다운로드 할 수는 없는 상황이다. 그래도 david silver나 특정 분이 설명을 해주는 영상이 있어 공유를 한다. 아직 잘 모르겠지만, 큰 의미는 각각의 전문화된 에이전트를 구성하지 않아도 충분히 일반화된 에이전트를 구할 수 있다?... 이런 느낌인 것 같다. https://www.youtube.com/watch?v=_MduRkr6r6c https://www.youtube.com/watch?v=dmH1ZpcROMk
2021.05.31 -
RL) REALab: Conceptualising the Tampering Problem 설명
해당 이론이 딥 마인드에서도 중요하게 다루는 것 같은데, 사실 먼가 크게 와 닿지가 않는다 ㅠㅠ 관련된 논문에서 다음과 같은 연구 트렌드가 있었다. 두 개의 새로운 논문에서 우리는 시뮬레이션의 tempering를 연구 첫 번째 논문은 환경 물리학의 자연스러운 부분을 조작하는 REALab이라는 플랫폼을 설명 두 번째 논문은 여러 딥러닝 알고리즘의 temparing 동작을 연구하고 분리된 승인 알고리즘이 이론과 실제 모두에서 temparing를 방지함을 보여줍니다. AI 에이전트에 대한 목표를 제공하는 것은 어려운 문제가 될 수 있습니다. 한가지 어려운 점은 올바른 목적함수를 제시하는 것이다. (the specification gaming problem) 두 번째 어려움은 에이전트가 손상된 버전이 아닌 우리..
2021.04.20 -
Google’s RFA: Approximating Softmax Attention Mechanism in Transformers 간단하게 알아보기
What is Attention Mechanism & Why is RFA better than Softmax? 이 글에서는 Attention Mechanism은 무엇이며, softmax보다 저자가 주장한 RFA가 더 나은지 알아보는 글입니다. RANDOM FEATURE ATTENTION paper openreview.net/pdf?id=QtTKTdVrFBB 구글은 최근 새로운 방법을 출시했습니다.(Random Feature Attention) RFA란 기존보다 유사하거나 더 나은 성능을 달성하기 위해 transformer의 softmax주의 메커니즘을 시간 및 공간 복잡성의 상당한 개선한 것입니다. 이 블로그 글에서는, transformer의 배경을 알아보고, attention mechanism이 무엇인..
2021.03.01 -
[Review] Distral: Robust Multitask Reinforcement Learning 논문
2017년에 DeepMind에서 작성한 논문 대부분의 딥강화학습은 많은 시나리오에서, 그들의 적용 가능성이 제한되고, 복잡한 환경에 대해서 데이터 비효율적입니다. 데이터 효율성을 개선하기위한 한 가지 방향은 공유된 신경망 매개 변수를 사용한 멀티 태스킹 학습이며, 여기서 관련 작업 간의 전송을 통해 효율성을 개선 할 수 있습니다.그러나 실제로는 일반적으로 관찰되지 않습니다. 다른 작업의 기울기가 부정적으로 간섭하여 학습을 불안정하게 만들고 때로는 데이터 효율성이 떨어질 수 있기 때문입니다.또 다른 문제는 테스크간에 서로 다른 보상 체계가 있다는 것인데, 이는 공유 모델의 학습을 지배하는 한 테스크로 쉽게 이어질 수 있습니다. 그래서 딥마인드는 다중 테스크들의 조인트 트레이닝에 관한 새로운 접근을 제안한다..
2020.11.04