관심있는 주제(236)
-
hyper graph 관련해서 도움이 되는 글들
hypergraph에 대해서 자료를 하나씩 찾아보면서 정리 중이다. 아직 간단하게 개념적으로만 이해를 한 상태인 것 같다. 유익한 자료가 있으면 댓글로 공유 부탁드립니다 😁 시각화 https://towardsdatascience.com/how-to-visualize-hypergraphs-with-python-and-networkx-the-easy-way-4fe7babdf9ae How to visualize hypergraphs with Python and networkx — The Easy Way An easy method to draw some hypergraphs via standard graph visualization libraries. towardsdatascience.com 패키지 시각화 및 ..
2022.05.08 -
Paper) A Critical Study on Data Leakage in Recommender System Offline Evaluation 리뷰
정리 추천 모델에서 오프라인 설정에서 평가가 어려움 글로벌 타임 라인을 반영하지 않으면 data leakage 가 발생함. 예측 시간에 따라 교호 작용에서 학습할 수 있게 됨. 모든 모델이 data leakage를 통해 실제 영향을 주는 것을 확인하였음. 모델 BPR, NeuMF, SASRec, LightGCN 사용 데이터 MovieLens-25M, Yelp, Amazon-music, Amazon-eletronic 사용 평가 Leav Last Out 데이터 전략 채택 오프라인 모델 평가에서 타임 라인 방식을 제안 정리하자면... 핵심은 data leakage를 방지하기 위해선 time context를 반영하는 data split 전략을 해야 한다. 그렇지 않으면, 모델의 성능에 많은 영향을 줄 수 있고,..
2022.03.26 -
Paper) 추천 알고리즘들의 Data Split 전략에 대한 논문 리뷰
논문 제목 A Critical Study on Data Leakage in Recommender System Offline Evaluation 추천 시스템에서는 데이터 분리 전략에 대해서 다소 난해한 점이 있는 것 같아. 특정 논문을 리뷰하고자 한다. 결론적으로는 알고리즘에 따라 데이터 분리 전략에 따라 성능은 차이가 날 수 있고, 실제 가장 현실적인 전략은 temporal global splitting이라 할 수 있다고 한다. 서론 분할 전략에 따라서 추천 시스템의 Rank에 큰 영향을 미칠 수 있다는 것을 주장하는 논문이다. 추천 시스템(RecSys)은 대규모 데이터셋 내에서 사용자가 구매하거나 소비하고 싶은 관심 품목을 가장 효과적으로 찾는 방법을 조사하는 광범위한 연구의 대상이 되어 왔다. 추천은..
2022.03.24 -
Paper) Deep Learning for Anomaly Detection: A Review
Anomaly Detection에 관심이 있는 분이라면 한 번 읽어보시길 추천드린다. https://arxiv.org/abs/2007.02500 Deep Learning for Anomaly Detection: A Review Anomaly detection, a.k.a. outlier detection or novelty detection, has been a lasting yet active research area in various research communities for several decades. There are still some unique problem complexities and challenges that require advanced approac arxiv.org 아직 다..
2022.02.27 -
Python) Cora dataset을 활용하여 Link Prediction
Objective GNN을 사용하여 어떻게 Link Prediction을 할 수 있는지에 대해서 알아보고자 함. Introduction 많은 예제들이 보통 node 분류를 하는 데, GNN 많은 예제들이 있고, Link Prediction을 다루는 예제는 많이 없다. 개인적으로 Node 분류도 관심이 있지만, Edge를 어떻게 예측하는지 관심이 있어 시작하게 되었고 여기서는 어떻게 예측을 하는지 알아보고자 한다. DataSet 여기서는 자주 사용하는 Cora 데이터 세트로 진행하려고 한다. 이 데이터의 Node와 Edge의 의미는 다음과 같다. Node 머신러닝 논문 Edge 논문 쌍 간의 인용 즉 이 논문은 인용 그래프를 나타낸다고 할 수 있다. Node (Node Classification) 논문 분..
2022.01.29 -
Python) Fraud detection with Graph Attention Networks
목차 Objective 이 글의 목적은 Fraud Detection과 GNN을 결합하는 방식을 배우기 위해서 글을 작성해봅니다. Introduction to Fraud Detection 사기 탐지(Fraud Detection)는 기업이 승인되지 않은 금융 활동을 식별하고 방지할 수 있도록 하는 일련의 프로세스 및 분석입니다. 여기에는 사기성 신용 카드 거래, 도난 식별, 사이버 해킹, 보험 사기 등이 포함될 수 있습니다. 사기는 누군가가 속임수나 범죄 활동을 통해 귀하의 돈이나 기타 자산을 빼앗을 때 발생합니다. 결과적으로 효과적인 사기 탐지 시스템을 갖추면 기관에서 의심스러운 행동이나 계정을 식별하고 사기가 진행 중인 경우 손실을 최소화하는 데 도움이 될 수 있습니다. ML 알고리즘을 기반으로 하는 사..
2022.01.28 -
Python) 추천 시스템 방법론별로 간단한 예시
목차 Objective 추천 시스템에는 다양한 종류들이 있다. 그래서 처음 하게 되면, 머부터 시작할지 다소 애매할 수 있다. 이 글은 아래 참고를 바탕으로 간 방법론 별로 간단한 코드를 정리해보고자 한다. Implementation Data 생성 및 구조 여기서는 유저별 아이템별 rating이 있는 데이터를 임의로 생성한다. 그리고 아이템별로 타입도 임의로 선정한다. 데이터는 사용자의 아이템별 rating과 아이템의 장르를 가진 테이블을 가지고 분석을 해본다. import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import gc from collections import defaultdic..
2022.01.23 -
Python) text content based recommendation
목차 Objective text content를 가지고 추천하는 코드를 연습해보고자 한다. 일단 본 내용에선 text를 벡터화시켜주기 위해 pretrained bert를 쓰는 것과, 벡터 값이 있을 때 similarity 중에서 consine similarity를 사용해서 후보군을 찾는 것을 해본다. Implementation data 데이터는 아래 캐글 데이터를 사용하였다. https://www.kaggle.com/harshitshankhdhar/imdb-dataset-of-top-1000-movies-and-tv-shows read data 여기선 sentenc_transformers라는 라이브러리를 사용해서 pretrained bert를 통해 문장을 임베딩하고자 한다. import matplotli..
2022.01.23 -
추천-2 이웃 기반 협업 필터링(Nearest Neighbor Collaborative Filtering)
2022.01.15 - [관심있는 주제/Recommendation] - 추천-1 시스템의 목표 2022.01.19 - [관심있는 주제/Recommendation] - 추천-2 이웃 기반 협업 필터링(Nearest Neighbor Collaborative Filtering) 목차 Recommeder Systems라는 책을 기반으로 작성되었습니다. 1. 개요 이웃 기반 협업 필터링 == 메모리 기반 알고리즘 협업 필터링의 초기 알고리즘 가정 비슷한 이용자들이 평점을 주는 방식에 비슷한 패턴을 보이고 비슷한 아이템에는 유사한 평점을 준다는 사실을 기반 2가지 유형 1. 사용자 기반 협업 필터링 타깃 유저 A의 추천 제공을 위해 유사한 유저들의 평점을 이용 예측된 A의 평점은 “피어 그룹”의 각 아이템의 평점에..
2022.01.19 -
추천-1 시스템의 목표
2022.01.15 - [관심있는 주제/Recommendation] - 추천-1 시스템의 목표 2022.01.19 - [관심있는 주제/Recommendation] - 추천-2 이웃 기반 협업 필터링(Nearest Neighbor Collaborative Filtering) 목차 Recommeder Systems라는 책을 기반으로 작성되었습니다. 1. 예측 모델 불완전한 행렬을 완성하는 것을 목적으로 함. matrix completion 문제 2. 랭킹 모델 특정 사용자에 대한 상위-k item을 추천하거나, 특정 아이템에 대해 목표로 하는 상위-k 사용자를 결정 top-k recommendation 문제 예측된 평점의 수치값이 중요하지 않음 제품 판매 증가 추천 시스템의 주요 목표 수익 증대라는 좀 더 ..
2022.01.15 -
인공지능 및 기계학습 심화 2,3 자료 - VAE, GAN 영상 링크
문일철교수님이 새롭게 21년 12월 11일 쯤에 영상을 업로드 한 것을 우연히 확인하였고, 관련된 링크 공유드립니다. GAN과 VAE를 딥하게 공부할 때 도움이 될 것 같습니다. https://www.youtube.com/watch?v=IggyzBF0_Zc&list=PLbhbGI_ppZISpfvyIy7XKmWck5jNhvCqg&ab_channel=AAILabKaist https://www.youtube.com/watch?v=IggyzBF0_Zc&list=PLbhbGI_ppZISJoDJbGCXi9mH8rnJgRXTg&ab_channel=AAILabKaist 알고보니 kooc 이라는 open oline course에 올라온 영상이였다. 영상을 보다가 궁금한 것은 여기다가 물어보면 될 것 같다! https:/..
2021.12.19 -
Paper) Deep Neural Decision Forests 정리
기존의 randomforest 같은 경우 데이터의 주요 변동 요인을 포착하는 데 도움이 되는 내부 표현을 효율적으로 학습하는 메커니즘이 부족하다. 본 연구에서는 의사결정 트리의 divide and conquer 원칙을 통해 심층 아키텍처에서 representation learning에서 매력적인 속성을 통합하는 새로운 접근 방식인 Deep Neural Decision Forests을 제시함. 이 논문에서 우리는 (심층) 컨볼루션 네트워크에서 end to end 학습을 위한 대체 분류기로 사용할 수 있는 확률적이고 차별화 가능한 의사 결정 트리를 모델링하고 훈련하는 방법을 보여주었다. 기존의 의사 결정 트리 훈련에 대한 일반적인 접근방식은 일반적으로 탐욕스럽고 국지적인 방식(local manner)으로 작..
2021.12.18