Generation of Synthetic Data with Generative Adversarial Networks - 리뷰 3 [Chapter 4]

2019. 6. 28. 19:12관심있는 주제/GAN

Analysis and results

the efficiency, the preservation of the data distribution, the preservation of the correlation patterns, and the generation of quality text

 

4.1 Overall analysis and results

 

표 4.1은 세 가지 사례 연구 중 한 가지에 대해 실험에서 생성된 데이터의 양을 나타낸다.

사례 D1 및 D2에 대해 명시된 원래 데이터 크기가 원래 데이터 세트 크기에서 무작위로 샘플링한 후 교육 데이터 세트의 크기라는 점을 지적해야 한다.

D3의 경우, 데이터 세트 크기가 상당히 작았기 때문에 모든 데이터가 훈련에 사용되었다.

 

수집된 전체 지표에서, 생성된 중복된 합성 기록의 수와 실제 데이터 세트에서 반복된 합성 기록의 수를 확인하는 것이 주목할 만했다. D1과 D2는 어떤 실험에서도 중복되거나 반복된 기록은 없었다.

그래서 이 모델이 중복된 데이터를 생성하지 않게 잘했다는 것을 알 수 있다. 

D3 같은 경우 매우 작은 데이터임에도 불구하고 기대했던 것보다 잘 되는 것을 알 수 있다.

4.2 Efficiency

각 변형의 효율성은 필요한 기계 학습 또는 통계 모델을 교육하거나 생성하는 데 걸리는 시간과 지정된 수의 기록을 생성하는 데 걸리는 시간을 측정하여 분석한다.

4.2.1 Training time

10,000 iteration으래 훈련시켰다. 500번마다 시각화 한 그림.

4.2.2 Data generation time

4.3 Preserving the data distribution

Original Dataset의 분포를 보존할 때 , 얻은 결과들은 거의 논의의 여지가 없다.

모든 수치는 ITS 및 CR-ITS 생성기가 원래 데이터와 관련하여 속성의 평균 Wasserstein Distance가 가장 낮음을 보여준다.

Neural Network 접근들의 오랜 시간 고려 없이, 딥러닝 없이 Continuous와 Categorical 데이터를 생성하는 것이 더 효과적인 것을 알 수 있다.

 

4.4 Preserving the correlation patterns

위의 그림을 보면 ITS 가 도 절 Categorical을 생성한 것을 알 수 있다. 

반며에 3-layer GAN의 성능은 안 좋다.

GAN 기반 발전기는 모든 경우에 비 GAN 접근 방식보다 더 우수할 것이다

 

첫 번째 사례 연구는 ML 실험을 위해 고도로 설계되는 특수성을 지니고 있다.

그것은 나머지 속성과 일부 약하게 악명 높은 상관관계를 나타내는 세 가지 속성(두 가지 범주형 및 한 가지 연속형)만 포함하고 있다. (Categorical : 2 , Continuous : 1 ) 

4.6에서 보여주듯이, ITS 든 GAN이든 실제 데이터와 상관 패턴을 보전하지 못함을 보여주고 있다.  

그럼에도 불고하고 ITS와 Real과의 상관 거리는 더 작다. 

 

반대로 4.7에서는 기대된 대로 된 것 같다. GAN Based가 좀 더 real과 비슷한 것이 보인다. 

전반적으로, Generative Adverservisory Networks는 상관관계의 패턴을 더 잘 보존하는 것을 보여주었다.

다른 한편으로, 이 목표를 위한 단순한 데이터 생성기, 즉 상호 관계적인 (ITS) 역변환 샘플링 접근법을 만들려는 시도는 다소 실망스러웠다.

 

4.5 Generating quality text

 

 

사실 건진 것은 평가를 할 때 Correlation matrix를 보는 것도 유의미성을 판단한다는 것과
Correlation matrix의 거리를 재서 가깝게 하는 것도 데이터를 유사하게 만드는 데 도움을 줄 수 있으니, 이것을 Loss를 추가로 할 수 있지 않을까라는 생각이 든다!

 

https://www.researchgate.net/publication/328134142_Generation_of_Synthetic_Data_with_Generative_Adversar ial_Networks

불러오는 중입니다...

https://data-newbie.tistory.com/194?category=686943

 

Generation of Synthetic Data with Generative Adversarial Networks - 리뷰 1

2018/10/07 먼가 이미지에서 내가 찾고 있는 것이 나온 것 같아서 한번 파보려고 한다. 페이지는 72... 필요한 것만 볼 예정이니, 한번 보는 것을 추천! Abstract synthetic data 생성의 목적은 real 한 데이터를..

data-newbie.tistory.com

https://data-newbie.tistory.com/195?category=686943

 

Generation of Synthetic Data with Generative Adversarial Networks - 리뷰 2 [Chapter 3]

https://data-newbie.tistory.com/194 Generation of Synthetic Data with Generative Adversarial Networks - 리뷰 1 2018/10/07 먼가 이미지에서 내가 찾고 있는 것이 나온 것 같아서 한번 파보려고 한다. 페이..

data-newbie.tistory.com

https://data-newbie.tistory.com/197?category=686943

 

Generation of Synthetic Data with Generative Adversarial Networks - 리뷰 3 [Chapter 4]

Analysis and results the efficiency, the preservation of the data distribution, the preservation of the correlation patterns, and the generation of quality text 4.1 Overall analysis and results 표 4..

data-newbie.tistory.com

https://data-newbie.tistory.com/199

 

Generation of Synthetic Data with Generative Adversarial Networks - 리뷰 4 [Chapter 5]

Chapter 5 Conclusions and future work 드디어 끝이다~~~ 이 프로젝트의 목표는 미래 제품이 최소의 사용자 상호작용을 필요로 하는 방식으로 통합 데이터 생성기의 개발을 돕는 동시에 실제 데이터 세트의 유사..

data-newbie.tistory.com

 

728x90