LocateAnything 이해하기: 좌표를 한 글자씩 만들지 않는 VLM
·
관심있는 주제/논문리뷰
LocateAnything: VLM은 어떻게 이미지를 보고 좌표를 말할까요 이미지 안의 “빨간 셔츠를 입은 사람”, “검색 버튼”, “문서의 표 영역”, “도로 표지판의 글자”를 찾으려면 결국 모델은 좌표를 말해야 합니다. LocateAnything은 이 좌표를 더 빠르고 안정적으로 말하기 위해 나온 NVIDIA의 vision-language grounding 모델입니다.이 글에서 잡고 갈 핵심은 하나입니다.LocateAnything은 좌표를 토큰 하나씩 말하지 않고, 박스라는 기하학적 단위를 하나의 블록으로 다루려 합니다.이 아이디어가 Parallel Box Decoding(PBD)입니다. 기존 VLM grounding이 , , , 를 순차적으로 생성했다면, LocateAnything은 x1..