GaN(24)
-
[ TGAN ] Modeling Tabular data using Conditional GAN - Review (1)
여러 가지 GAN을 패키지화해서 내놓고 있다. 벌써 이렇게 정형화된 툴이 나올 수 있는 건지 의구심이 들긴 하지만 그래도 패키지화 했다는 게 충격이고 유용한 것 같다. torch로 구현이 되어있는데, 역시 새로운 기술에 대해서는 torch로 많이 하시는 것 같으니 torch를 시작해야하나싶다 ㅠ 여기서는 보통 Missing value를 처리를 하고 GAN 모델에 태우는 것 같다. 역시 하면서도 어려웠던 것은 기존 Missing 에 대한 처리와 Categorical 변수 그리고 얼마 없는 Category 까지도 생성할 수 있는 디테일이 떨어진다. 이런 부분에 대해서 중간 정도까지 읽어봤는데 ,어느 정도 저자들의 생각이 들어있어서 좋은 것 같다. https://github.com/DAI-Lab/TGAN ht..
2019.08.25 -
Generation of Synthetic Data with Generative Adversarial Networks - 리뷰 4 [Chapter 5]
Chapter 5 Conclusions and future work https://www.researchgate.net/publication/328134142_Generation_of_Synthetic_Data_with_Generative_Adversar ial_Networks 불러오는 중입니다... 드디어 끝이다~~~ 이 프로젝트의 목표는 미래 제품이 최소의 사용자 상호작용을 필요로 하는 방식으로 통합 데이터 생성기의 개발을 돕는 동시에 실제 데이터 세트의 유사한 패턴과 유사한 통계 분포를 보존하는 품질의 통합 데이터를 생성하는 것이다. 대부분의 기존 툴과 통합 데이터를 생성하기 위한 접근방식은 많은 사용자 상호작용을 요구하거나 단순히 초기 실제 데이터 집합의 패턴을 복제하는 데 초점을 맞추지 않는 경..
2019.06.29 -
A Survey on GANs for Anomaly Detection 리뷰
도움이 되셨다면, 광고 한번만 눌러주세요. 블로그 관리에 큰 힘이 됩니다 ^^ 한번 썼다가 와이파이가 끊겨 다 날아가서... 힘든 마음으로 다시 쓴다..ㅠㅠㅠㅠㅠ Anomaly detection은 몇몇의 연구 분야에서 중요한 문제이다. 눈에 보이지 않는 것을 비정상적인 것으로 감지하고 올바르게 분류하는 것은 수년 동안 여러 가지 다른 방식으로 다루어졌던 도전적인 문제다. GAN과 Adversarial training 과정이 이 Anomaly detection 분야에서 최근 좋은 성과를 내고 있다고 한다. 본 논문에서는 GAN 기반의 이상 징후 탐지 방법을 조사하여 장단점을 강조한다. 여기서 괜찮은 것은 다시 한번 또 리뷰를 해야겠다. 볼 논문은 넘쳐난다... 졸꾸졸꾸.... (파파고와 함께라면....) ..
2019.06.29 -
Generation of Synthetic Data with Generative Adversarial Networks - 리뷰 3 [Chapter 4]
Analysis and results the efficiency, the preservation of the data distribution, the preservation of the correlation patterns, and the generation of quality text 4.1 Overall analysis and results 표 4.1은 세 가지 사례 연구 중 한 가지에 대해 실험에서 생성된 데이터의 양을 나타낸다. 사례 D1 및 D2에 대해 명시된 원래 데이터 크기가 원래 데이터 세트 크기에서 무작위로 샘플링한 후 교육 데이터 세트의 크기라는 점을 지적해야 한다. D3의 경우, 데이터 세트 크기가 상당히 작았기 때문에 모든 데이터가 훈련에 사용되었다. 수집된 전체 지표에서, 생성된 ..
2019.06.28 -
Generation of Synthetic Data with Generative Adversarial Networks - 리뷰 2 [Chapter 3]
Chapter 3 Generation of Synthetic Data with GANs 이 연구에서 가장 기여한 점은 GAN framework를 기반으로 한 포괄적인 데이터 생성 접근의 Design과 Test에 있다고 한다. 3.1 The data generation process 8개 단계로 진행 Input은 생성할 데이터의 셋에 해당하는 2차원 관련 구조의 집합인 반면, Output은 동일한 포맷의 합성 데이터로 채워진 유사한 집합이다. 데이터 types와 schema를 탐지하는 것부터 시작. 데이터 속성들 사이에서 co-relation을 잡을 수 있게 Pattern Analysis를 수행해야 한다. Input Data를 기계 학습 모델과 데이터 생성에 사용되는 통계 기능으로 이해할 수 있도록 fea..
2019.06.26 -
Generation of Synthetic Data with Generative Adversarial Networks - 리뷰 1
2018/10/07 먼가 이미지에서 내가 찾고 있는 것이 나온 것 같아서 한번 파보려고 한다. 페이지는 72... 필요한 것만 볼 예정이니, 한번 보는 것을 추천! Abstract synthetic data 생성의 목적은 real 한 데이터를 제공해주지 못하거나, 제한되게 제공할 경우에 사용한다. 민감한 데이터 일 경우 그것을 함부로 원본을 주기가 어려울 것이다. 전통적인 방법들은 중요한 통계적인 성질을 잘 복제하지 못한다. 성질들이라고 하면은 distribution, the patterns or the correlation between variables, are often omitted 게다가 기존 방법들은 최근에 핫한 딥러닝이나 머신러닝 방법을 사용하지 않고 있다. 그래서 기존은 GAN은 이미지와 ..
2019.06.25 -
[Review] Deep learning method for synthesis of tabular data
Boogie Software라는 곳에서 tabular data를 GAN을 활용해서 만들어서 상업화가 되고 있는 것 같다. 개인적으로 계속해보고 있지만, 굉장히 불안전하다고 생각하는데, 벌써 상업화하고 있어서 참 빠르다고 생각한다. 은행 거래 데이터를 활용해서 하는 것 같다. 여기선 GAN을 활용해서 합성 데이터를 만든다고 한다. 은행 데이터에는 Categorical , Numerical 변수들이 많이 있는데, 이렇게 합성한 데이터를 training을 할 때나 test 할 때 쓴다고 한다. Data synthesis 막상 데이터는 있지만, 흔한 경우 그 데이터는 Privacy와 굉장히 밀접한 데이터 때문에 실제 데이터를 바로 사용하기가 어려운 경험들이 있을 것입니다. 그래서 상업적으로 사용하기 위해 비슷한..
2019.06.25 -
GAN minibatch discrimination code
NUM_KERNELS = 5 def minibatch(input, num_kernels=NUM_KERNELS, kernel_dim=3, name = None ): output_dim = num_kernels*kernel_dim w = tf.get_variable("Weight_minibatch_" + name , [input.get_shape()[1], output_dim ], initializer=tf.random_normal_initializer(stddev=0.2)) b = tf.get_variable("Bias_minibatch_" + name , [output_dim],initializer=tf.constant_initializer(0.0)) x = tf.matmul(input, w) + b a..
2019.05.28 -
[Review] REAL-VALUED (MEDICAL) TIME SERIES GENERATION WITH RECURRENT CONDITIONAL GANS - (1)
2017 12년도에 나온 논문이지만, 이 논문을 이용해서 파생된 논문들이 있고 Time-Series에서 RNN과 GAN을 합쳐서 사용한 것 같아서 일단 보려고 합니다. 개인적으로 여기서 RNN을 어떻게 활용하는지 궁금하더라고요. https://paperswithcode.com/paper/real-valued-medical-time-series-generation https://github.com/ratschlab/RGAN 이 구조에서 파생된 논문 1 https://arxiv.org/pdf/1901.04997.pdf https://github.com/LiDan456/MAD-GANs 이 구조에서 파생된 논문 2 https://paperswithcode.com/paper/anomaly-detection-wit..
2019.05.19 -
Data Synthesis based on Generative Adversarial Networks [2018] 논문 리뷰 - 1
이 논문을 보는 이유 저번에 리뷰를 했던 https://data-newbie.tistory.com/98?category=686943 GAN 논문에서 해당 논문이 Table 데이터에 CNN 적용했다는 글을 보고 읽기 시작했다. 일반적으로 Table 같은 정형 데이터에 CNN은 적용하는 사례는 거의 못 봤지만 개인적으로 적용하면 어떻게 될까 항상 궁금했다. 여담이지만, 실제로 먼가 같은 인풋에 여러 개의 Layer를 입힌 다음에 concat을 해서 convolution1d를 해봤는데, 결과는 공유를 못 할 정도로 엉망이었다. 또 저자를 확인해보니 한국분들이 많으셔서, 굉장히 반가웠다.(나만..) 개요 이 논문은 다른 사람들에게 데이터를 공유 시 프라이버시에 대한 걱정이 중요해서 이것을 어떻게 해결할지에 대한..
2019.05.12 -
Original GAN 리뷰
GAN을 발표할 일이 있어서, 내 생각을 정리하기도 하면서, 공유를 하고 싶어서 글을 남깁니다. GAN을 맨 처음 배울 때 자주 적합는 분류표다. 크게 Explicit density 와 Implicit density 2가지로 나눌 수가 있다. Explicit density 는 P_model(x)를 확실히 정의 할 수 있고 계산할 수 있는(tractable) 이든지 approximate처럼 근사하는 VAE 같은 것으로 나눌 수 있다. Implicit density 는 P_model(x)를 명시적으로 정의하지 않고 확률 분포를 알기 위해 sample을 뽑는 방법을 말한다. 이 개념에 대해서 항상 헷갈리는데 좋은 답변을 찾아서 공유하고자 한다. (유재준 님 블로그) GAN이 Sampler라는 얘기를 이해하시면..
2019.05.11 -
Synthesizing Tabular Data using Generative Adversarial Networks(1811 -논문 리뷰 )
제가 요즘 관심 있는 것은 생성 모델 중에 GAN이라는 알고리즘입니다. 저는 특히 Tabular Data를 GAN을 활용해, 생성하는 것에 관심이 있어서 해당 논문에 대해서 디테일하게 설명하지는 못하지만, 직관적으로 제가 이해한 만큼만 작성해보려고 합니다. Paper : https://arxiv.org/abs/1811.11264 Code : https://github.com/DAI-Lab/TGAN 이 논문을 제가 선택한 이유는 다음과 같습니다. Discre 변수와 Continuous 변수를 동시에 생성 가능하다고 합니다( medgan 논문은 안됩니다) 대부분의 discrete data를 생성하는 GAN 논문에서는 RL 방법이나 Round로 처리하는데, 해당 논문은 softmax를 이용하여서 처리합니다. ..
2019.05.09