논문 리뷰-단일 시맨틱 검색의 한계-On the Theoretical Limitations ofEmbedding-Based Retrieval
·
관심있는 주제/LLM
우연히 유튜브를 보다가 해당 논문을 가지고 소개한 글을 보게 되어, 마침 이 주제에 관심이 있었는데 보게 되었습니다.여기서 읽어보다보니 가장 궁금한 것은 시맨틱 검색이 왜 BM25보다 떨어지는 경우가 많고 그거에 대한 수학적인 근거를 알 수 있고 그러면 질문 유형별로 어떻게 대처하면 좋을 지에 대한 힌트를 얻을 수 있었던 것 같다1. 기초 개념 정리임베딩(Embedding)이란?텍스트를 고정된 차원의 벡터로 변환하는 방식유사한 의미를 가진 문장이나 문서가 가까운 벡터가 되도록 학습됨일반적으로 코사인 유사도로 유사도를 판단함벡터 검색(Vector Search)이란?쿼리도 임베딩 벡터로 만들고 전체 문서 중 가장 가까운 벡터를 찾아서 "관련 문서"로 간주함 “모든 쿼리와 문서를 숫자 벡터 하나로 바꾼 뒤, ..
Tabular) 좋은 피처 만드는 전처리 방법 정리해보기 (preprocessing)
·
분석 Python/구현 및 자료
정형 데이터를 딥러닝에 사용할 때 임베딩하는 방법에 대해서 정리해보고자 한다. 흔히 아는 머신러닝과 딥러닝의 차이를 이런 식으로 표현한다. (물론 딥러닝은 머신러닝의 부분집합이긴 해서 이렇게 구분하는 게 맞지는 않기는 한 것 같다) 여기서 말하는 머신 러닝은 흔히 이야기하는 tree 계열 알고리즘이나 회귀분석 같은 통계 기반의 방법론들을 생각해 주면 될 것 같다. 정형데이터 AI 모델 개발 방식 말하고자 하는 것은 흔히 딥러닝을 써서 얻을 수 있는 기대효과는 알아서 데이터에 대한 정보를 추출(feature extraction)할 수 있다는 믿음하에 딥러닝 방법론을 많이 사용하게 된다. 정형데이터 AI 모델 개발 방식 트렌드 크게 현재 데이터로 많이 사용하는 것이 tabular, image, text, g..
Python) Cora dataset을 활용하여 Link Prediction
·
관심있는 주제/GNN
Objective GNN을 사용하여 어떻게 Link Prediction을 할 수 있는지에 대해서 알아보고자 함. Introduction 많은 예제들이 보통 node 분류를 하는 데, GNN 많은 예제들이 있고, Link Prediction을 다루는 예제는 많이 없다. 개인적으로 Node 분류도 관심이 있지만, Edge를 어떻게 예측하는지 관심이 있어 시작하게 되었고 여기서는 어떻게 예측을 하는지 알아보고자 한다. DataSet 여기서는 자주 사용하는 Cora 데이터 세트로 진행하려고 한다. 이 데이터의 Node와 Edge의 의미는 다음과 같다. Node 머신러닝 논문 Edge 논문 쌍 간의 인용 즉 이 논문은 인용 그래프를 나타낸다고 할 수 있다. Node (Node Classification) 논문 분..
Why You Should Always Use Feature Embeddings With Structured Datasets - 리뷰
·
관심있는 주제/Dimension Reduction
정형 데이터에서 뉴럴 네트워크를 훈련시킬 때, 피처 임베딩은 중요한 것 중에 하나다. 이 기술은 NLP이외에는 좀 처럼 가르쳐 주지 않는다. 결과적으로 구조화 된 데이터 세트에서는 거의 완전히 무시됩니다. 그러나 이 단계를 스킵하는 것은 모델 정확성을 떨어트립니다. 이로 인해 XGBoost와 같은 그래디언트 강화 방법이 구조화 된 데이터 세트 문제에 대해 항상 우월하다는 잘못된 이해가 생겼습니다. 향상된 신경망을 임베딩하는 것은 종종 그래디언트 부스트 방법을 능가 할뿐만 아니라 이러한 임베딩이 추출 될 때 두 모델링 방법 모두 주요 개선 사항을 볼 수 있습니다. 이 기사는 다음 질문에 답할 것입니다. What are feature embeddings? How are they used with struct..
Tensorflow Projector 사용하기
·
분석 Python/Tensorflow
word2 vec을 들어본 사람이라면 아래 그림과 같은 예제를 많이 보게 될 것이다. word2 vec을 사용하면 단어를 특정 공간에 투영시켜놓는다 그리고 이게 잘 학습이 된다면 단어들이 의미 있는 공간에 투영되게 된다. 그래서 아래 그림에서 보면 성별을 기준으로 같은 방향으로 움직이면 다른 성별에 관련된 단어와 연관이 있다는 것을 알 수 있게 된다. 이런 식으로 sparse representation(one-hot)에서 dense representation(distributed representation)으로 변하게 할 수 있다. 이렇게 하면 기존의 n 차원에서 더 작은 m 차원으로 줄여줄 수가 있게 돼서 차원의 저주라는 문제에 대해서 어느 정도 해소시켜줄 수 있다. 그뿐만 아니라 일반화 능력도 가질 ..
[ Python ] scikit-learn RandomTreesEmbedding
·
분석 Python/Scikit Learn (싸이킷런)
이것도 우연히 다른거 찾다가... 일단 임베딩 관련해서 찾다보니 다음과 같이 나왔다. 현재 아래있는 Manifold Learning은 numerical multidimensional matrix에서 하는 방법론들인 것 같다.(아닐수도 있다...) 일단 저건 그랬고 이번에는 그것보다는 다른 걸 찾아사 말하고자 한다. 이번에 찾은 것은 high dimensional sparse representation으로 표현을 하는데, 음 이것을 소개하는 이유는 다음과 같다. ensemble tree 모델을 이용하다보니, one hot encoding 모아 놓은 것에 대해서 sparse matrix를 만들어준다. 즉 이것을 사용하면 결측치가 들어있는 데이터에 대해서 유익한 정보로 sparse한 dimensional ma..
[ Python ] UMAP (Uniform Manifold Approximation and Projection)
·
분석 Python/구현 및 자료
이것의 관심을 가진 이유는 원래 기본적인 T-SNE은 Visualization 용으로만 쓰는데, 실제로 이 패키지에서는 그 Embedding 한 것을 변수로 사용할 수 있다고 합니다. 그래서 train을 학습시켜서 그걸 다시 test에 transform 하는 식으로 변형도 가능하다고 해서, 일반적으로 우리가 알고 있는 T-SNE와는 달리, 저차원으로 잘 축소해서 사용할 수 있을 것 같아서 포스팅합니다.. https://arxiv.org/abs/1802.03426 https://github.com/lmcinnes/umap https://umap-learn.readthedocs.io/en/latest/parameters.html 제가 한번 해본건데요! 지금 이게 결국 feature로 쓸 수 있다면 KNN C..

AI 도구

AI 도구 사이드 패널

아래 AI 서비스 중 하나를 선택하여 블로그를 보면서 동시에 사용해보세요.

API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다
API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다
API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다
URL과 모델을 입력하세요설정을 저장하려면 저장 버튼을 클릭하세요설정이 저장되었습니다