관심있는 주제(236)
-
Synthesizing Tabular Data using Generative Adversarial Networks(1811 -논문 리뷰 )
제가 요즘 관심 있는 것은 생성 모델 중에 GAN이라는 알고리즘입니다. 저는 특히 Tabular Data를 GAN을 활용해, 생성하는 것에 관심이 있어서 해당 논문에 대해서 디테일하게 설명하지는 못하지만, 직관적으로 제가 이해한 만큼만 작성해보려고 합니다. Paper : https://arxiv.org/abs/1811.11264 Code : https://github.com/DAI-Lab/TGAN 이 논문을 제가 선택한 이유는 다음과 같습니다. Discre 변수와 Continuous 변수를 동시에 생성 가능하다고 합니다( medgan 논문은 안됩니다) 대부분의 discrete data를 생성하는 GAN 논문에서는 RL 방법이나 Round로 처리하는데, 해당 논문은 softmax를 이용하여서 처리합니다. ..
2019.05.09 -
Overfit? or dissimilar train and test? (medium 번역 및 생각)
https://towardsdatascience.com/how-dis-similar-are-my-train-and-test-data-56af3923de9b How (dis)similar are my train and test data? Understanding a scenario where your machine learning model can fail towardsdatascience.com 해당 내용이 굉장히 흥미로워서 공유를 하면서 나도 연습을 해보려고 작성했다. 흥미로운 이유는 만약 train으로 함수를 추정하고 test로 평가했을 때 성능이 안좋은 이유는 우리는 보통 overfitting이 발생했다고 한다. 하지만 이 글에서는 그 문제일수도 있지만, 새로운 문제를 제기한다. 실제 train 분..
2019.05.08 -
Feature engineering ( 글 리뷰 및 내 생각 )
좋은 글인 것 같아서 구글 번역 및 저의 생각을 적을 수 있으면 적을까 합니다. (영문 글을 보시는 게 더 나을지도 몰라요ㅎㅎ) Feature Engineering이란 머신러닝 문제에 대해서 타겟에 대해서 최고로 잘 표현할 수 있게 가공되지 않은 데이터를 가공하는 것을 의미한다. 나는 데이터 분석에 앞에서 가장 중요한 작업이라고 생각한다. 일반적인 생각해 볼 수 있는것은 필요 없는 것을 빼거나 scale을 잘 조정을 한다던지, 결측치 제거, 미싱처리 같은 것이 있다고 한다. 적다 보니 preprocessing하고 비슷한 것 같기도 하고.... 모델 성능을 높이기 위해서 데이터 과학자들이 할 수 있는 방법 중의 하나라고 한다. 1. You can isolate and highlight key informa..
2019.05.06 -
NN에서 Categorical Variables에 대해서는 어떻게 해야할까?
현재 Neural Network는 주로 이미지나 비디어 같이 Unconstructed Data에 대해서 Convolution을 사용해서 feature의 Parameter 개수를 축약하면서 Wide한 구조로 만들 수 데이터에 대한 Representation을 layer에서 잘 해줘서 된다고 생각한다. 하지만 현재 나는 주로 그런 Unconstructed Data 보다는 주로 tabular data에 대해서 많이 다루고 있다. 일단 Neural Network는 깡패이기 때문에 왠만하면 다른 알고리즘과 비슷한 성능이 잘 나온다. 하지만 비슷한 성능은 나오지만, 설명력이 좋지 못하니 굳이 tree-based 알고리즘과의 차이를 크게 내지 못하니, 굳이 사용해나 되기도 싶다. 최근에 보니 그래서 tree 기반과 ..
2019.05.06 -
Design Thinking에 대하여
Feature Engineering 이라는 medium 글을 읽다가 Design Thinking에 대한 내용이 있고 좋은 글을 또 추천해줘서 읽어보기로 했다. 여기서 Design Thinking 정의를 다음과 같이 한다. > Design Thinking is a design methodology that provides a solution-based approach to solving problems. Design Thinking이란 문제를 해결하기 위한 해결 기반 접근법을 제공하는 방법론이라는 소리인 것 같은데, 이런 방법들이 복잡한 문제에 대해서 prototyping and testing 에서 굉장히 실용적인 접근 방법이라고 합니다. 여기서는 the Hasso-Plattner Institute of ..
2019.05.06 -
threshold는 어떻게 정해야 할까? 개인적인 간단한 생각
우리가 어떤 모델링을 하고 나오는 값은 결국 확률 값으로 나오게 된다. 보통은 argmax 나 max f1 , 대충 0.5 같은 기준을 통해서 예측 타깃 값을 구한 다음 Confusion Matrix를 구해서 Accuracy 도 보고 Recall , Precision 같은 것을 확인해서 모델을 평가하게 된다. 그러면 이러한 기준이 되는 threshold(=cut off)는 어떻게 정해야 할까? 최근 겪고 있는 문제는 데이터가 imbalance 할 때 모델의 확률 값을 봤을 때 0의 경우에는 확실히 0이지만 1인 경우에는 0.01 ~ 0.001 이러한 부근에 있다. 보통 이러한 cut off 문제를 완화하기 위해 추천하는 방법은 undersampling, oversampling, sensitive cost..
2019.05.04 -
Andrew NG Regularization 중 인상깊었던 것만
## Edwidth https://www.edwith.org/deeplearningai2/joinLectures/20015 심층 신경망 성능 향상시키기 강좌소개 : edwith - 커넥트재단 www.edwith.org Regularization Overfitting 방지 Dropout 은 몇개를 제외함으로써 특정변수의 의존도를 줄여서 분산을 크게하는식 Input 에서는 거의 0.999 나 1 Overfitting 이 발생될것같은곳만 하기 이미지에서는 일반적으로 사용하나 일단 오버피팅이 나는지 체크해보고 하는 것이 좋음 이미지는 픽셀 단위고 데이터가 적어서 overfitting이 많이 일어나므로 한다고 함 l1 norm 거의 사용 x L2norm = weight decay 와 같은 효과 Dropout 도 ..
2019.05.04 -
The relativistic discriminator: a key element missing from standard GAN Review
https://arxiv.org/abs/1807.00734 나오게 된 배경 일반적인 GAN에서 Discriminator가 Gradient 가 소실되는 현상이 종종 일어나서 학습이 안되는 경우가 있음. 그리고 이러한 GAN을 향상시키기위해 LSGAN, Wasserstein Distance 와 Gradient Penalty를 사용한 WGAN-GP가 나왔고 이러한 GAN들은 Integral probability Metrics를 기반으로한 논문들이 많이 나오게 됨. IPM을 기반으로 한 GAN들은 Fake 와 Real을 완벽하게 구분하는 것을 방지함으로써, 학습을 계속했을 때 Gradient가 사라지는 현상 없이 학습을 시킬 수 있음. Integral Probability Metric(IPM) IPM 이란 각 ..
2019.03.16