2019. 6. 28. 19:12ㆍ관심있는 주제/GAN
Analysis and results
the efficiency, the preservation of the data distribution, the preservation of the correlation patterns, and the generation of quality text
4.1 Overall analysis and results
표 4.1은 세 가지 사례 연구 중 한 가지에 대해 실험에서 생성된 데이터의 양을 나타낸다.
사례 D1 및 D2에 대해 명시된 원래 데이터 크기가 원래 데이터 세트 크기에서 무작위로 샘플링한 후 교육 데이터 세트의 크기라는 점을 지적해야 한다.
D3의 경우, 데이터 세트 크기가 상당히 작았기 때문에 모든 데이터가 훈련에 사용되었다.
수집된 전체 지표에서, 생성된 중복된 합성 기록의 수와 실제 데이터 세트에서 반복된 합성 기록의 수를 확인하는 것이 주목할 만했다. D1과 D2는 어떤 실험에서도 중복되거나 반복된 기록은 없었다.
그래서 이 모델이 중복된 데이터를 생성하지 않게 잘했다는 것을 알 수 있다.
D3 같은 경우 매우 작은 데이터임에도 불구하고 기대했던 것보다 잘 되는 것을 알 수 있다.
4.2 Efficiency
각 변형의 효율성은 필요한 기계 학습 또는 통계 모델을 교육하거나 생성하는 데 걸리는 시간과 지정된 수의 기록을 생성하는 데 걸리는 시간을 측정하여 분석한다.
4.2.1 Training time
10,000 iteration으래 훈련시켰다. 500번마다 시각화 한 그림.
4.2.2 Data generation time
4.3 Preserving the data distribution
Original Dataset의 분포를 보존할 때 , 얻은 결과들은 거의 논의의 여지가 없다.
모든 수치는 ITS 및 CR-ITS 생성기가 원래 데이터와 관련하여 속성의 평균 Wasserstein Distance가 가장 낮음을 보여준다.
Neural Network 접근들의 오랜 시간 고려 없이, 딥러닝 없이 Continuous와 Categorical 데이터를 생성하는 것이 더 효과적인 것을 알 수 있다.
4.4 Preserving the correlation patterns
위의 그림을 보면 ITS 가 도 절 Categorical을 생성한 것을 알 수 있다.
반며에 3-layer GAN의 성능은 안 좋다.
GAN 기반 발전기는 모든 경우에 비 GAN 접근 방식보다 더 우수할 것이다
첫 번째 사례 연구는 ML 실험을 위해 고도로 설계되는 특수성을 지니고 있다.
그것은 나머지 속성과 일부 약하게 악명 높은 상관관계를 나타내는 세 가지 속성(두 가지 범주형 및 한 가지 연속형)만 포함하고 있다. (Categorical : 2 , Continuous : 1 )
4.6에서 보여주듯이, ITS 든 GAN이든 실제 데이터와 상관 패턴을 보전하지 못함을 보여주고 있다.
그럼에도 불고하고 ITS와 Real과의 상관 거리는 더 작다.
반대로 4.7에서는 기대된 대로 된 것 같다. GAN Based가 좀 더 real과 비슷한 것이 보인다.
전반적으로, Generative Adverservisory Networks는 상관관계의 패턴을 더 잘 보존하는 것을 보여주었다.
다른 한편으로, 이 목표를 위한 단순한 데이터 생성기, 즉 상호 관계적인 (ITS) 역변환 샘플링 접근법을 만들려는 시도는 다소 실망스러웠다.
4.5 Generating quality text
사실 건진 것은 평가를 할 때 Correlation matrix를 보는 것도 유의미성을 판단한다는 것과
Correlation matrix의 거리를 재서 가깝게 하는 것도 데이터를 유사하게 만드는 데 도움을 줄 수 있으니, 이것을 Loss를 추가로 할 수 있지 않을까라는 생각이 든다!
https://www.researchgate.net/publication/328134142_Generation_of_Synthetic_Data_with_Generative_Adversar ial_Networks
https://data-newbie.tistory.com/194?category=686943
https://data-newbie.tistory.com/195?category=686943
https://data-newbie.tistory.com/197?category=686943
https://data-newbie.tistory.com/199
'관심있는 주제 > GAN' 카테고리의 다른 글
Generation of Synthetic Data with Generative Adversarial Networks - 리뷰 4 [Chapter 5] (0) | 2019.06.29 |
---|---|
A Survey on GANs for Anomaly Detection 리뷰 (1) | 2019.06.29 |
Generation of Synthetic Data with Generative Adversarial Networks - 리뷰 2 [Chapter 3] (0) | 2019.06.26 |
Generation of Synthetic Data with Generative Adversarial Networks - 리뷰 1 (0) | 2019.06.25 |
The Synthetic data vault - 논문리뷰 (0) | 2019.06.25 |