Embedding(6)
-
Tabular) 좋은 피처 만드는 전처리 방법 정리해보기 (preprocessing)
정형 데이터를 딥러닝에 사용할 때 임베딩하는 방법에 대해서 정리해보고자 한다. 흔히 아는 머신러닝과 딥러닝의 차이를 이런 식으로 표현한다. (물론 딥러닝은 머신러닝의 부분집합이긴 해서 이렇게 구분하는 게 맞지는 않기는 한 것 같다) 여기서 말하는 머신 러닝은 흔히 이야기하는 tree 계열 알고리즘이나 회귀분석 같은 통계 기반의 방법론들을 생각해 주면 될 것 같다. 정형데이터 AI 모델 개발 방식 말하고자 하는 것은 흔히 딥러닝을 써서 얻을 수 있는 기대효과는 알아서 데이터에 대한 정보를 추출(feature extraction)할 수 있다는 믿음하에 딥러닝 방법론을 많이 사용하게 된다. 정형데이터 AI 모델 개발 방식 트렌드 크게 현재 데이터로 많이 사용하는 것이 tabular, image, text, g..
2023.10.04 -
Python) Cora dataset을 활용하여 Link Prediction
Objective GNN을 사용하여 어떻게 Link Prediction을 할 수 있는지에 대해서 알아보고자 함. Introduction 많은 예제들이 보통 node 분류를 하는 데, GNN 많은 예제들이 있고, Link Prediction을 다루는 예제는 많이 없다. 개인적으로 Node 분류도 관심이 있지만, Edge를 어떻게 예측하는지 관심이 있어 시작하게 되었고 여기서는 어떻게 예측을 하는지 알아보고자 한다. DataSet 여기서는 자주 사용하는 Cora 데이터 세트로 진행하려고 한다. 이 데이터의 Node와 Edge의 의미는 다음과 같다. Node 머신러닝 논문 Edge 논문 쌍 간의 인용 즉 이 논문은 인용 그래프를 나타낸다고 할 수 있다. Node (Node Classification) 논문 분..
2022.01.29 -
Why You Should Always Use Feature Embeddings With Structured Datasets - 리뷰
정형 데이터에서 뉴럴 네트워크를 훈련시킬 때, 피처 임베딩은 중요한 것 중에 하나다. 이 기술은 NLP이외에는 좀 처럼 가르쳐 주지 않는다. 결과적으로 구조화 된 데이터 세트에서는 거의 완전히 무시됩니다. 그러나 이 단계를 스킵하는 것은 모델 정확성을 떨어트립니다. 이로 인해 XGBoost와 같은 그래디언트 강화 방법이 구조화 된 데이터 세트 문제에 대해 항상 우월하다는 잘못된 이해가 생겼습니다. 향상된 신경망을 임베딩하는 것은 종종 그래디언트 부스트 방법을 능가 할뿐만 아니라 이러한 임베딩이 추출 될 때 두 모델링 방법 모두 주요 개선 사항을 볼 수 있습니다. 이 기사는 다음 질문에 답할 것입니다. What are feature embeddings? How are they used with struct..
2021.02.28 -
Tensorflow Projector 사용하기
word2 vec을 들어본 사람이라면 아래 그림과 같은 예제를 많이 보게 될 것이다. word2 vec을 사용하면 단어를 특정 공간에 투영시켜놓는다 그리고 이게 잘 학습이 된다면 단어들이 의미 있는 공간에 투영되게 된다. 그래서 아래 그림에서 보면 성별을 기준으로 같은 방향으로 움직이면 다른 성별에 관련된 단어와 연관이 있다는 것을 알 수 있게 된다. 이런 식으로 sparse representation(one-hot)에서 dense representation(distributed representation)으로 변하게 할 수 있다. 이렇게 하면 기존의 n 차원에서 더 작은 m 차원으로 줄여줄 수가 있게 돼서 차원의 저주라는 문제에 대해서 어느 정도 해소시켜줄 수 있다. 그뿐만 아니라 일반화 능력도 가질 ..
2020.01.26 -
[ Python ] scikit-learn RandomTreesEmbedding
이것도 우연히 다른거 찾다가... 일단 임베딩 관련해서 찾다보니 다음과 같이 나왔다. 현재 아래있는 Manifold Learning은 numerical multidimensional matrix에서 하는 방법론들인 것 같다.(아닐수도 있다...) 일단 저건 그랬고 이번에는 그것보다는 다른 걸 찾아사 말하고자 한다. 이번에 찾은 것은 high dimensional sparse representation으로 표현을 하는데, 음 이것을 소개하는 이유는 다음과 같다. ensemble tree 모델을 이용하다보니, one hot encoding 모아 놓은 것에 대해서 sparse matrix를 만들어준다. 즉 이것을 사용하면 결측치가 들어있는 데이터에 대해서 유익한 정보로 sparse한 dimensional ma..
2019.12.21 -
[ Python ] UMAP (Uniform Manifold Approximation and Projection)
이것의 관심을 가진 이유는 원래 기본적인 T-SNE은 Visualization 용으로만 쓰는데, 실제로 이 패키지에서는 그 Embedding 한 것을 변수로 사용할 수 있다고 합니다. 그래서 train을 학습시켜서 그걸 다시 test에 transform 하는 식으로 변형도 가능하다고 해서, 일반적으로 우리가 알고 있는 T-SNE와는 달리, 저차원으로 잘 축소해서 사용할 수 있을 것 같아서 포스팅합니다.. https://arxiv.org/abs/1802.03426 https://github.com/lmcinnes/umap https://umap-learn.readthedocs.io/en/latest/parameters.html 제가 한번 해본건데요! 지금 이게 결국 feature로 쓸 수 있다면 KNN C..
2019.05.22