Paper) Perceiver IO (다양한 데이터를 처리할 수 있는 아키텍처)

2021. 8. 12. 23:55관심있는 주제

 

정리하자면, 딥마인드에서 새로운 논문을 냈고, 내용은 하나의 데이터 타입이 아닌 어떤 데이터셋이 와도 처리할 수 있는 아키텍처를 제안했다.

 

보통 모델이 한번 잘 적합하게 되면 다른 작업에서는 바꿔서 사용할 수 없는 어려움이 있다.

이 제약은 많은 작업이 시각 및 오디오와 같은 다양한 입력을 필요로 하는 인간 인지와 매우 대조된다고 하며, 최근 DeepMind는 다양한 유형의 입력 데이터 세트를 처리할 수 있는 범용 아키텍처를 공개하는 두 개의 논문을 발표했다.

 

 “Perceiver: General Perception with Iterative Attention”

“Perceiver IO: A General Architecture for Structured Inputs & Outputs”

 

 

첫번째 논문에서는 이미지, 포인트 클라우드, 오디오, 비디오 및 이들의 조합을 포함한 데이터를 처리할 수 있는 transformer 아키텍처인 Perceiver는 분류와 같은 간단한 작업으로 제한됩니다.

두번째 논문에서는 DeepMind는 컴퓨터 게임과 같은 복잡한 다중 모드 작업에 적용할 수 있는 Perceiver 모델의 보다 일반적인 버전인 Perceiver IO를 제공한다고 합니다.

 

 

두 Perceiver 모델은 transformer 아키텍처를 기반으로 합니다. 

Google BERT 또는 OpenAI GPT-3과 같은 모델의 모든 성공에도 불구하고 대부분의 transformer 모델은 최대 수천 요소의 입력이 있는 시나리오에서 가장 효과적이었습니다.

이미지, 비디오 또는 책과 같은 데이터 유형에는 수백만 개의 요소가 포함될 수 있으므로 transformer 사용이 다소 까다롭습니다.

이 문제를 해결하기 위해 Perceiver는 입력에 대해 도메인별 가정을 하지 않는 일반화한 attetion layer에 의존합니다. 특히, Perceiver attiontion 모델은 먼저 입력을 처리 비용이 입력의 크기와 무관한 더 작은 히든 벡터로 인코딩합니다. 이를 통해 Perceiver 모델은 입력에 따라 적절하게 확장할 수 있습니다.

 

 

아직 제대로 보진 않았지만, Q,K,V는 먼가 기대하는 효과가 대충은 이해가 가는데, Output query array는 무슨 역할인 것인지... TODO..

 

 

 

https://arxiv.org/abs/2107.14795

https://pub.towardsai.net/deepminds-new-super-model-perceiver-io-is-a-transformer-that-can-handle-any-dataset-dfcffa85fe61

 

DeepMind’s New Super Model: Perceiver IO is a Transformer that can Handle Any Dataset

The new transformer-based architecture can process audio, video, and images using a single model.

pub.towardsai.net

https://deepmind.com/blog/article/building-architectures-that-can-handle-the-worlds-data

 

Building architectures that can handle the world’s data

Perceiver IO, a more general version of the Perceiver architecture, can produce a wide variety of outputs from many different inputs.

deepmind.com

Perceiver / Perceiver IO 설망자료

https://www.youtube.com/watch?v=P_xeshTnPZg 

https://github.com/lucidrains/perceiver-pytorch

 

GitHub - lucidrains/perceiver-pytorch: Implementation of Perceiver, General Perception with Iterative Attention, in Pytorch

Implementation of Perceiver, General Perception with Iterative Attention, in Pytorch - GitHub - lucidrains/perceiver-pytorch: Implementation of Perceiver, General Perception with Iterative Attentio...

github.com

https://paperswithcode.com/paper/perceiver-io-a-general-architecture-for

 

Papers with Code - Perceiver IO: A General Architecture for Structured Inputs & Outputs

🏆 SOTA for Optical Flow Estimation on Sintel-final (Average End-Point Error metric)

paperswithcode.com

 

728x90