논문 리뷰-단일 시맨틱 검색의 한계-On the Theoretical Limitations ofEmbedding-Based Retrieval
·
관심있는 주제/LLM
우연히 유튜브를 보다가 해당 논문을 가지고 소개한 글을 보게 되어, 마침 이 주제에 관심이 있었는데 보게 되었습니다.여기서 읽어보다보니 가장 궁금한 것은 시맨틱 검색이 왜 BM25보다 떨어지는 경우가 많고 그거에 대한 수학적인 근거를 알 수 있고 그러면 질문 유형별로 어떻게 대처하면 좋을 지에 대한 힌트를 얻을 수 있었던 것 같다1. 기초 개념 정리임베딩(Embedding)이란?텍스트를 고정된 차원의 벡터로 변환하는 방식유사한 의미를 가진 문장이나 문서가 가까운 벡터가 되도록 학습됨일반적으로 코사인 유사도로 유사도를 판단함벡터 검색(Vector Search)이란?쿼리도 임베딩 벡터로 만들고 전체 문서 중 가장 가까운 벡터를 찾아서 "관련 문서"로 간주함 “모든 쿼리와 문서를 숫자 벡터 하나로 바꾼 뒤, ..