관심있는 주제(238)
-
GANs for tabular data - 리뷰
기존에 있었던 논문을 정리한 미디엄 글이다. 2개 정도 소개하는 글이다. 사실 다 한 번씩 본 것이지만, 정리하는 차원에서 다시 보기로 했다. 사실 관심 있는 사람도 만나서 반갑기도 하다. 관련 추가글 CTGAN 리뷰 글 TGAN 리뷰 글 TGAN: Synthesizing Tabular Data using Generative Adversarial Networks arXiv:1811.11264v1 TGAN 저자는 GAN으로 생성할 때 이러한 문제점들이 있다고 한다. the various data types (int, decimals, categories, time, text) different shapes of distribution ( multi-modal, long tail, Non-Gaussian…)..
2020.03.29 -
Permutation importance 을 사용하여 딥러닝 모델 해석하기 (정형 데이터)
광고 한번만 눌러주세요 ㅎㅎ 블로그 운영에 큰 힘이 됩니다. 모델을 해석하는 방법에는 다양한 방법이 있고, 그중에 많은 패키지는 model-agnostic 한 방법으로 학습된 모델을 사후 해석하는 방향으로 해석을 합니다. 그래서 이번 글에서는 그러한 방법론 중 Permutation을 이용하여 변수 중요도를 구하는 방법을 소개하겠습니다. 여기서 사용하고 있는 많이들 알고 있는 Tensorflow를 사용하여 Neural Network를 기반 아키텍처에 대한 변수에 대한 중요도를 보이고자 합니다. 아래 그림 처름 주어진 데이터에 각 변수마다 Permutation을 통해 다양하게 섞습니다. 그리고 Permutation을 하였을 때, 결괏값의 Loss가 커질 경우, 그 변수는 중요한 변수라는 것을 의미합니다. 일..
2020.03.26 -
Generative Teaching Networks: Accelerating Neural Architecture Search by Learning to Generate Synthetic Training Data - 리뷰
광고 한번만 눌러주세요 ㅎㅎ 블로그 운영에 큰 힘이 됩니다. 미디엄 글을 읽다가 2가지가 눈에 띄어서 읽게 되었다. 일단 주가가 굉장히 떨어져 가는 우버이지만 계속해서 연구하고 있다는 점이랑, GAN으로 데이터 생성을 한 것을 다시 학습에 써서, NAS를 빠르게 한다는 것? 필자는 NAS에 대해서 모르지만, 일단 GAN을 어떻게 사용하는지 궁금하게 되서 읽어보기로 했다. 이 글은 미디엄 글을 바탕으로 작성되며, 추가적인 궁금한 사항에 대해서는 다른 글을 참고해서 적었습니다. AI에서 흔한 비유로 쓰는 것은 훈련 데이터를 머신 러닝 모델들의 새로운 기름이라고 합니다. 귀중한 상품 처럼 훈련 데이터는 희소하며, 규모도 맞추기 어렵다. 지도 학습 모델은 오늘날의 머신 러닝 생태계에서 절대적인 주권을 잡고 있습..
2020.03.21 -
Reliable Fidelity and Diversity Metrics for Generative Models - 리뷰 미완성
Clova AI에서 Generative Model들에 대한 성능 지표 관련 논문임. 이미지 다차원 데이터에 대해서 지표 측정에 대해서 설명하는 것이라서, 읽어보고자 함. 1.Introduction 생성 모델을 평가하는 것은 어렵다. discriminative models $P(T|X)$이 쉽게 라벨링이 되어 있는 샘플 $(X_i,T_i)$에 대한 예측 성능을 측정하는 것과는 달리, generative models $P(X)$ 는 real $X_i$ 와 fake $Y_j$ 사이에 차별성을 측정한다. 복잡성을 더하여 각각의 단점성을 가지고 두 분포들 사이에서 거리를 측정하는 방법은 하나 이상이다. 심지어, Mean Opinion Score 같은 human judgement는 이상적이지 않다. 비록 트레이드오..
2020.03.16 -
A Novel Framework for Selection of GANs for an Application -논문 리뷰
이 논문에서는 GAN에서 겪는 문제점들에 대해서 언급하고 이제까지 나온 논문들을 모든 것은 아니지만, 핵심적인 것들에 대해서 정리해주는 것 같아서 읽어보면서 재정리해보고자 한다. 이 논문에서는 크게 architecture, loss , regularization, divergence를 기반으로 특정 사용 사례에 대한 후보 GAN을 식별하기위한 새로운 프레임 워크를 제안한다고 함. https://arxiv.org/abs/2002.08641 GAN에서 크게 이슈가 제기되는 점은 다음과 같다. mode collapse vanishing gradient unstable training non-convergence GANs game theory : a two-player minimax game discrimina..
2020.03.08 -
Pytorch vs Tensorflow 비교
Tensorflow2.0 이냐 Pytorch 나에 대해서 갈림길에 놓여있는 필자와 연구자들을 위해 관련 자료들을 모아서 비교하는 자료를 만들고자 함. 개인적으로 현재 2020년 03월 05일 시점에서는 Tensorflow2.0이 아직 버그가 많아서 Pytorch가 더 좋아 보이는 게 개인적인 생각임(그러나 필자는 tensorflow 1.x 유저) 일단 현재 많은 연구자들의 논문에서 Tensorflow 보다 Pytorch 관련 논문의 비율이 앞도적으로 늘어나고 있음. 그리고 전체 논문에서도 Torch가 Tensorflow보다 많은 비율을 차지하고 있는 추세임. 그렇다면 연구자들은 tensorflow 대비 pytorch에 어떠한 장점으로 인해 이런 추세를 가지게 된 걸까? 필자는 사실 배포에 관한 문제로 인..
2020.03.05 -
Why Do GANs Need So Much Noise? - 리뷰
GAN에 왜 그렇게 많은 노이즈가 필요한가?라는 주제로 미디엄 글이 있어서, GAN 쪽에서 이런 원론적인 것에 대해 관심이 많기 때문에 읽어보려고 한다. GAN (Generative Adversarial Networks)은 오래된 "실제" 샘플로써 제공하여 새로운 "가짜"샘플을 생성하는 도구이다. 이 샘플들은 이 샘플은 실제로 무엇이든 될 수 있습니다: 손으로 그린 숫자, 얼굴 , 손으로 그린 숫자, 얼굴 사진, 표현주의 그림 이것을 하기 위해서, GANs는 original dataset 하에서 기존 분포를 학습한다. 학습을 통하여, 생성자는 분포를 근사하고 반면에 판별자는 무엇이 잘 못되었는지를 말해준다. 그리고 이 2개가 교호하면서, arms race를 통해서 향상한다. 분포로부터 랜덤 샘플들을 뽑아..
2020.03.03 -
Interpreting complex models with SHAP values - 리뷰
광고 한 번만 눌러주세요! 블로그 운영에 큰 힘이 됩니다 ( Click my ADs! ) 적용 예제는 해당 블로그에 있으니 참고 바란다. Apply Tensor flow 1.x (SHAP or LIME) to tabular data [ Python ] SHAP (SHapley Additive exPlanations) Decision plot 설명 [ Python ] Scikit-Learn Pipeline + RandomizedSearchCV + shap,eli5 SHAP이라는 XAI Library를 사용하려고 하니, 막상 SHAP에 대해 잘 알지 못하는 것 같아서 글을 하나씩 읽어보면서 알아보려고 한다. 머신러닝 분야에서 중요한 질문은 왜 이 알고리즘이 이러한 결정을 했는지이다. 이것은 여러 가지 이유로..
2020.02.29 -
텐서플로우 버전 1에서 LIME 과 SHAP 을 사용하여 모델 해석하기 (정형 데이터)
딥러닝 모델들이 black-box 형태의 모델이기 때문에 해석을 하는 데 있어서 사람들의 많은 요구사항들이 있다. 그중에서 유명한 것은 eli5, shap, lime, skater와 같은 알고리즘들을 사용하고, 만약 이러한 알고리즘을 적용하기 어렵다면, surrogate model을 통해 해당 모델에 대한 설명 가능한 모델을 새로 만들어서 모델을 해석하는 방법도 있다. 아래 블로그는 XAI에 대해서 정리한 글이라서 참고하시면 될 것 같다. 해당 글에서는 ELI5 /Skater / SHAP에 대한 설명을 해주고 있다. 대한 예제는 해당 블로그에도 있으니 참고하길 바란다. 여기선 skater라는 것을 보게 됐는데, 이것도 적용을 해봐야겠다. https://towardsdatascience.com/explai..
2020.02.25 -
Contextual Bandits and Reinforcement Learning - 리뷰
2017년 글이지만 contextual bandits에 대한 어느 정도 알 수 있는 글인 것 같아서 읽어보기로 함 https://towardsdatascience.com/estimating-optimal-learning-rate-for-a-deep-neural-network-ce32f2556ce0 Estimating an Optimal Learning Rate For a Deep Neural Network The learning rate is one of the most important hyper-parameters to tune for training deep neural networks. towardsdatascience.com 만약 앱 또는 사이트에서 사용자 경험의 개인화를 개발하고자 한다면, C..
2020.02.18 -
Self-Attention Generative Adversarial Networks - 설명
Abstract 기존의 convolutional GAN은 저해상도 피쳐 맵에서 공간적으로만 로컬 포인트의 함수로 고해상도 디테일을 생성함. SAGAN에서는 모든 특징의 위치로부터 힌트를 사용하여 데이터를 생성함. 게다가 discriminator는 이미지의 먼 부분에서 매우 상세한 형상이 서로 일치하는지 확인할 수 있다. 최근 연구에서 GAN의 성능은 Generator의 조절에 영향을 미침. 이러한 통찰력에서 저자는 SN을 GAN generator에 적용함. 이것이 훈련 역학을 개선한다는 것을 발견했다고 함. SAGAN은 기존 것보다 36.8 -> 52.52(Inception score) 27.62-> 18.65(Frechet Inception distance(FID)) Introduction 이미지 생성..
2020.02.16 -
Graph Neural Networks 이란? (파파고 번역)
https://towardsdatascience.com/an-introduction-to-graph-neural-networks-e23dc7bdfba5 An introduction to Graph Neural Networks Graph structured data is common across various domains, examples such as molecules, { social, citation, road } networks, are just a few of… towardsdatascience.com Graph Neural Network를 조금이라도 알고 싶은 마음에 읽어봤으나, 표현도 어렵고 파파고를 한 90% 돌린 것 같습니다. 해당 글에 대한 원문인 위의 글을 읽어주세요. :) 그래프 구..
2020.02.16