2021. 8. 12. 23:55ㆍ관심있는 주제
정리하자면, 딥마인드에서 새로운 논문을 냈고, 내용은 하나의 데이터 타입이 아닌 어떤 데이터셋이 와도 처리할 수 있는 아키텍처를 제안했다.
보통 모델이 한번 잘 적합하게 되면 다른 작업에서는 바꿔서 사용할 수 없는 어려움이 있다.
이 제약은 많은 작업이 시각 및 오디오와 같은 다양한 입력을 필요로 하는 인간 인지와 매우 대조된다고 하며, 최근 DeepMind는 다양한 유형의 입력 데이터 세트를 처리할 수 있는 범용 아키텍처를 공개하는 두 개의 논문을 발표했다.
“Perceiver: General Perception with Iterative Attention”
“Perceiver IO: A General Architecture for Structured Inputs & Outputs”
첫번째 논문에서는 이미지, 포인트 클라우드, 오디오, 비디오 및 이들의 조합을 포함한 데이터를 처리할 수 있는 transformer 아키텍처인 Perceiver는 분류와 같은 간단한 작업으로 제한됩니다.
두번째 논문에서는 DeepMind는 컴퓨터 게임과 같은 복잡한 다중 모드 작업에 적용할 수 있는 Perceiver 모델의 보다 일반적인 버전인 Perceiver IO를 제공한다고 합니다.
두 Perceiver 모델은 transformer 아키텍처를 기반으로 합니다.
Google BERT 또는 OpenAI GPT-3과 같은 모델의 모든 성공에도 불구하고 대부분의 transformer 모델은 최대 수천 요소의 입력이 있는 시나리오에서 가장 효과적이었습니다.
이미지, 비디오 또는 책과 같은 데이터 유형에는 수백만 개의 요소가 포함될 수 있으므로 transformer 사용이 다소 까다롭습니다.
이 문제를 해결하기 위해 Perceiver는 입력에 대해 도메인별 가정을 하지 않는 일반화한 attetion layer에 의존합니다. 특히, Perceiver attiontion 모델은 먼저 입력을 처리 비용이 입력의 크기와 무관한 더 작은 히든 벡터로 인코딩합니다. 이를 통해 Perceiver 모델은 입력에 따라 적절하게 확장할 수 있습니다.
아직 제대로 보진 않았지만, Q,K,V는 먼가 기대하는 효과가 대충은 이해가 가는데, Output query array는 무슨 역할인 것인지... TODO..
https://arxiv.org/abs/2107.14795
https://deepmind.com/blog/article/building-architectures-that-can-handle-the-worlds-data
Perceiver / Perceiver IO 설망자료
https://www.youtube.com/watch?v=P_xeshTnPZg
https://github.com/lucidrains/perceiver-pytorch
https://paperswithcode.com/paper/perceiver-io-a-general-architecture-for
'관심있는 주제' 카테고리의 다른 글
Paper) DATA-DRIVEN OFFLINE OPTIMIZATION FORARCHITECTING HARDWARE ACCELERATORS 리뷰 (0) | 2021.11.06 |
---|---|
(진행중...) TESLA) AI DAY에서 자율 주행 AI 기술 보기 (0) | 2021.08.22 |
Andrew NG 인터뷰 내용 (0) | 2021.04.05 |
책) 실습 Modeling and Simulation in Python (0) | 2021.03.31 |
A Chat with Andrew on MLOps: From Model-centric to Data-centric A 간단 정리 (0) | 2021.03.29 |