2019. 6. 29. 22:28ㆍ관심있는 주제/GAN
Chapter 5 Conclusions and future work
https://www.researchgate.net/publication/328134142_Generation_of_Synthetic_Data_with_Generative_Adversar ial_Networks
드디어 끝이다~~~
이 프로젝트의 목표는 미래 제품이 최소의 사용자 상호작용을 필요로 하는 방식으로 통합 데이터 생성기의 개발을 돕는 동시에 실제 데이터 세트의 유사한 패턴과 유사한 통계 분포를 보존하는 품질의 통합 데이터를 생성하는 것이다.
대부분의 기존 툴과 통합 데이터를 생성하기 위한 접근방식은 많은 사용자 상호작용을 요구하거나 단순히 초기 실제 데이터 집합의 패턴을 복제하는 데 초점을 맞추지 않는 경우가 많다.
게다가, 대부분의 관련 연구는 새로운 기계 학습 기술을 사용하지 않거나 다양한 유형의 합성 데이터 생성을 다루지 않는다.
이러한 한계를 해소하기 위해 GAN을 사용할 수 있다.
그러므로, 이 프로젝트에서 연구 질문? 은 다음과 같다.
Can Generative Adversarial Networks be used to generate synthetic continuous, discrete and text data, effectively and efficiently, while preserving the underlying distribution and patterns ofthe real data?
총 6단계를 고안하고 TEXT나 Continuous, Discrete를 생성하기 위해 고안했다.
- 데이터셋에서 쳬계와 데이터 타입을 확인.
- 데이터 세트 내의 데이터 상관관계를 감지하고 저장하는 패턴 분석 수행
- 필요한 통계적 머신 모델을 효과적으로 하기 위해서 변형시킨다
- 모델을 생성하고 훈련시킨다.
- 데이터를 이전에 생성된 모델을 사용해 생성한다.
- 다시 reverse engineered를 통해서 생성한다. (inverse transform 같은 것)
이러한 data generation pipeline을 기반으로 해서 wasserstein conditional gan을 고안하고 최대한 간단하게 모델을 구성하고 시행한다.
simpler 접근 Continuous와 Categorical data를 생성하기 위해 Inverse Transform Sampling을 사용했다.
free text data를 생성하기 위해서는 Recurrent Conditional NN을 사용함.
5.1 DIscussion
GAN이 좋은 알고리즘이긴 하지만, 다양한 단점이 존재함
그러나 연속 값과 이산 값 또는 이산 값과 자유 텍스트 데이터 간의 차이를 어떻게 하는지에 대한 논의를 시작할 수 있다.
이러한 범주 사이의 경계는 돌로 정해져 있지 않으며, 제안된 데이터 생성 파이프라인의 구현에서 이러한 경계는 설계 결정이었습니다.
먼가 제목과는 달리 아쉬운 논문?Project? 설명인 것 같다.
https://data-newbie.tistory.com/194?category=686943
https://data-newbie.tistory.com/195?category=686943
https://data-newbie.tistory.com/197?category=686943
https://data-newbie.tistory.com/199