'LOCATEANYTHING' 태그의 글 목록

LocateAnything: VLM은 어떻게 이미지를 보고 좌표를 말할까요 이미지 안의 “빨간 셔츠를 입은 사람”, “검색 버튼”, “문서의 표 영역”, “도로 표지판의 글자”를 찾으려면 결국 모델은 좌표를 말해야 합니다. LocateAnything은 이 좌표를 더 빠르고 안정적으로 말하기 위해 나온 NVIDIA의 vision-language grounding 모델입니다.이 글에서 잡고 갈 핵심은 하나입니다.LocateAnything은 좌표를 토큰 하나씩 말하지 않고, 박스라는 기하학적 단위를 하나의 블록으로 다루려 합니다.이 아이디어가 Parallel Box Decoding(PBD)입니다. 기존 VLM grounding이 , , , 를 순차적으로 생성했다면, LocateAnything은 x1..

AI 도구

AI 도구 사이드 패널

아래 AI 서비스 중 하나를 선택하여 블로그를 보면서 동시에 사용해보세요.

보안상의 이유로 AI 서비스를 직접 임베드할 수 없습니다.

새 창에서 열기

Gemini API 키

API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다

모델 선택

OpenAI API 키

API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다

모델 선택

Anthropic API 키

API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다

모델 선택

VLLM 서버 URL

API 키 (비어있으면 "EMPTY" 사용)

모델 이름

URL과 모델을 입력하세요설정을 저장하려면 저장 버튼을 클릭하세요설정이 저장되었습니다

AI 도구

AI 도구 사이드 패널

티스토리툴바