CLIP (Contrastive Language-Image Pre-Training) 알아보기
CLIP에서 사용하는 아이디어가 좋아 보여서, 그 부분만 살펴보기로 한다. 최첨단 컴퓨터 비전 시스템은 미리 결정된 객체 범주의 고정된 세트를 예측하도록 훈련된다. 이러한 제한된 형태의 감독(Supervision)은 다른 시각적 개념을 명시하기 위해 추가적인 라벨링 데이터가 필요하기 때문에 일반성(Generality)과 유용성(Usability)을 제한한다 이미지에 대한 원시(raw) 텍스트에서 직접 학습하는 것은 훨씬 광범위한 감독 소스를 활용하는 적절한 대안이다. 우리는 어떤 자막이 어떤 이미지와 함께 가는지 예측하는 간단한 사전 교육(pretraining) 작업이 인터넷에서 수집된 4억 개의 (이미지, 텍스트) 쌍 데이터 세트에서 SOTA 이미지 표현을 처음부터 학습하는 효율적이고 확장 가능한 방법..
2022.08.13