A Novel Framework for Selection of GANs for an Application -논문 리뷰

2020. 3. 8. 15:59관심있는 주제/GAN

728x90

이 논문에서는 GAN에서 겪는 문제점들에 대해서 언급하고 이제까지 나온 논문들을 모든 것은 아니지만, 핵심적인 것들에 대해서 정리해주는 것 같아서 읽어보면서 재정리해보고자 한다.
이 논문에서는 크게 architecture, loss , regularization, divergence를 기반으로 특정 사용 사례에 대한 후보 GAN을 식별하기위한 새로운 프레임 워크를 제안한다고 함.

https://arxiv.org/abs/2002.08641

GAN에서 크게 이슈가 제기되는 점은 다음과 같다.

  •  mode collapse
  • vanishing gradient
  • unstable training
  • non-convergence

GANs

  • game theory : a two-player minimax game
    • discriminator & generator
  • advantage
    • parallel generation
    • universal approximation
    • better quality
    • sharp density estimates
    • understanding the structural hierarchy of samples

 


2 The Framework

GANs 들을 비교하기 위한, 표준적인 평가 메트릭이 없다. 
저자는 그래서 가능한 구성 수를 줄이고 주어진 사용 사례에 가장 적합한 GAN을 선택하기 위해 아키텍처, 손실, 정규화 , divergence의 4 가지 결정 매개 변수로 구성된 체계적인 하위 구조를 제안합니다.


3 Training Issues with Classic GAN

GAN은 많은 발전을 이루고 있지만, 학습하기에는 아직 다양한 어려움이 여전히 존재함.
mode collapse, optimization instability, vanishing gradient, non-convergence

3.1 Mode Collapse

Model Collapse는 generator가 데이터 공간의 좁은 영역에서만 확률 밀도를 만들 때를 의미한다. 
generator 모든 업데이트는 discriminator의 과도한 최적화로 끝나므로 generator가 다음 반복에서 가장 적합한 출력을 쉽게 검색 할 수 있습니다. 결과적으로 generator는  output type의 작은 그룹을 통하여서만 순환된다.
discriminator는 각각의 샘플을 독립적으로 다루기 때문에, 인센티브화하여 잡다한 결과를 생성하는 메커니즘은 없습니다. Mode Collapse 는 저품질 생성 분포를 결과로 만든다.

3.2 Vanishing Gradient

minimax GAN 목적함수의 최소화는 generator가 update하기 어렵게 만드는 vanishing gradient를 야기한다. 
source와 target의 분포가 완벽하게 맞추지 못할 때, discriminator는 최적에 가까워지고 gan의 목적함수의 gardient는 거의 0이 된다. 이것은 generator에게 적은 피드백을 주게되고, 학습이 중지되게 한다. 
이러한 문제를 해결하는 유명한 방법은 discriminator의 힘을 제하한하는 것보다는 gradient가 vanish되지 않게 하는 loss 매개변수 를 사용하는 것이다.
또 다른 원인은 real-world data는 보통 저차원 매니폴드에 모여있을 때, discriminator가 샘플을 실제와 가짜로 분류하는 것이 매우 간단하고 임의의 학습되지 않은 출력으로 이어지는 경우입니다.

3.3 Unstable Training

gradient descent 기반의 GAN 최적화 기술은 반드시 수렴할 필요가 없다. 그러므로 그들의 training dynamics를 이해하는 것은 중요하다. 이 알고리즘은 Nash-equilibrium 근처에서 지역적인 행동을 나타낸다. 이것은 global equilibrium 으로부터 멀어지게 되고, non-convex 비용 함수느 two-player non-cooperative surroundings에서 일관적인 성능을 내는데 실패하게 한다. 
심지이 generator loss와 discriminator의 loss가 수렴한다 할지라도, 그것이 pg=pd를 암시하지 않는다.
(pg는 generator의 확률 분포) 이것은 때때로 loss들의 진동을 보여주면서, 학습의 불안정성을 보여주고 결국 mode collapse를 야기하게 된다. 
GAN은 또한 하이퍼 파라미터의 세밀한 개선이 필요하다.
대규모 연구에 따르면 미세 조정 하이퍼 파라미터는 새로운 손실 함수를 도입하는 것보다 더 나은 결과를 얻을 수 있다.

3.4 Imbalance between discriminator and generator

equilibrium 도달 없이, GAN은 한 유형의 샘플 생성에서 다른 유형으로 진행합니다.
generator가 equilibrium point에 도달 할 때, discriminator의 경사는 가장 높을 것이다. 그리고 target distribution으로부터 generator를 밀어낼 것이다. 결과적으로 generator는  목표 분포를 향해 전진하고 discriminator는 경사를 양에서 음으로 변경합니다. 이 과정은 반복적으로 발생한다. 그러므로 loss plot는 학습하는 동안 수렴의 형태로 나타나지 않고 생성될 것이다. 게다가 generator가 고차원의 샘플을 생성하기 전에 discriminator는 비번하게 높은 분류 성능을 도달할 것이다. 그러모르 필요할 떄마다 discriminator의 성능을 안화할 필요가 있게 되어진다. discriminator와 generator의 사이의 불균형은 궁극적으로 non-convergence를 이끈다.


4 Evolution of GANs

Table 1 Summary of loss variants in GANs

Table 2 Comparison of GANs with FCGAN

Table 3 Comparison of GANs with WGAN

Table 4 Comparison of GANs with WGAN-GP

Table 5 Comparison of F-divergence GAN with Geometric GAN

Table 6 Comparison of RSGAN with Least Squares GAN

Table 7 Comparison of Loss Sensitive GAN with DCGAN

 

To reduce the combinatorial search space, we ask the following 4 questions whose answers are derived based on Tables 1-7.

  • What are the architecture to be used for the discriminator and the generator?
    • Based on the Table 1, the probable alternatives of architectures include fully connected, convolutional-deconvolutional networks or modifications of DCGAN.
  • Which loss functions are suitable?
    • The comparative assessment of loss GANs through the aspects of application, implementation and behavior in the form of Tables 2 - 7 provide a detailed study of loss GANs and their efficiency on image generation using CIFAR-10.
    • As the application requires high sample diversity and quality, the study suggests WGAN-GP, Least Squares GAN, RSGAN and SNGAN models. The combination of least squares GAN with relativism produces higher quality images compared to the independent models. Regularized models such as Loss Sensitive GAN and SNGAN demonstrate better generalization across distributions.
  • Does GAN need regularization? If yes then which one is efficient?
    • Our study indicates gradient penalty enhances the quality of images but does not stabilize the training. Spectral normalization indicates to be more computational efficient compared to gradient penalty. [47] showed that batch normalization in generator improves model quality while in discriminator manifested poor results.
  • Does GAN need different divergence then KL divergence? If yes, then which one is most suitable?
    • [48] introduced and experimented with various divergences including GAN, Kullback-Leibler and Squared-Hellinger, producing equally realistic samples.

 

728x90