GAIN: Missing Data Imputation using Generative Adversarial Nets - 간단 리뷰

2019. 6. 8. 17:25관심있는 주제/GAN

구조

 

Generator

missing 부분을 완전히 채우기

discriminator의 오분류율을 최대화하게 하는 것이 목표.

최대화한다는 것을 적 진짜인지 가짜인지 구별을 못하게 하는 것 0.5로 만드는 것.

Discriminator

imputed components와 관측된 값 사이에서 분별하기

생성된 것과 기존의 것 사이에서 분류하는 분류 로스를 최소화해야 한다.

hint

discriminator에게 특정 정보를 좀 더 주는 역할

이것을 통해 generator는 true underlying data 분포에 따라서 생성할 수 있게 하는 길잡이 역할을 하는 듯

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Generator

missing부분은 Generator에서

가져오겠다는 의미

M은 Masking Matrix

 

 

 

 

 

 

 

 

 

 

Discriminator

하지만 이런 구조로 하게 되면, Generator가 생성한 것은 완전히 Real이거나 완전히 Fake가 돼서 학습에 어려움이 발생할 수 있다. 이렇게 전체를 이분법적으로 만드는 것이 아니라 mask vector를 예측함으로써 진짜 인기 가짜인지를 분별하는 문제로 바꾸는 것이다!!!

그래서 아까 거기에 0.5 ( 헷갈리면) 0 (완전히 가짜) 이런 식으로 표현이 된 것이다

 

 

Objective

 

 

 

## Generator
* missing data를 정확하게 impute하는 것이 목표
* Discriminator의 오분류율을 최대로하는 것이 목표.
    * Discriminator가 2개의 차이를 구별하지 못하게 하는 것이 차이가 안나게 잘 생성한 것이므로


## Discriminator
* 관측된 것과 imputed 된 것 사이에서 분별하는 것이 목표
* imputed 된 것인지 실제 관측 값인지를 구별하는 Classification Loss를 최소화하는 것 
* Masking vector인지 아닌지에 대한 문제로 바꿔서 품 Mask Vector를 복원하는 것이 목표

 

## Hint
* Discriminator는 mask vector를 복원하는 것(어떠한 부분이 missing인지, 아닌지)
* Hint는 Masking에 대해서 Partial Information을 주는 역할을 함. 
* Discriminator가 Hint를 준 것을 제외한 나머지를 분류하게 되므로, Hint의 역할을 할 수 있게 됨.
* 학습 할 때 마다 부분적으로 랜덤으로 Hint를 줌으로써, masking vector를 잘 만들 수 있게 만듬.

 

 

https://arxiv.org/abs/1806.02920

 

GAIN: Missing Data Imputation using Generative Adversarial Nets

We propose a novel method for imputing missing data by adapting the well-known Generative Adversarial Nets (GAN) framework. Accordingly, we call our method Generative Adversarial Imputation Nets (GAIN). The generator (G) observes some components of a real

arxiv.org

https://github.com/jsyoon0823/GAIN

 

jsyoon0823/GAIN

Generative Adversarial Imputation Networks (GAIN). Contribute to jsyoon0823/GAIN development by creating an account on GitHub.

github.com

http://dmqm.korea.ac.kr/activity/seminar/251

 

고려대학교 DMQA 연구실

고려대학교 산업경영공학부 데이터마이닝 및 품질애널리틱스 연구실

dmqa.korea.ac.kr

고려대에서 만든 좋은 자료를 찾아서 공유

728x90