관심있는 주제(236)
-
Generation of Synthetic Data with Generative Adversarial Networks - 리뷰 4 [Chapter 5]
Chapter 5 Conclusions and future work https://www.researchgate.net/publication/328134142_Generation_of_Synthetic_Data_with_Generative_Adversar ial_Networks 불러오는 중입니다... 드디어 끝이다~~~ 이 프로젝트의 목표는 미래 제품이 최소의 사용자 상호작용을 필요로 하는 방식으로 통합 데이터 생성기의 개발을 돕는 동시에 실제 데이터 세트의 유사한 패턴과 유사한 통계 분포를 보존하는 품질의 통합 데이터를 생성하는 것이다. 대부분의 기존 툴과 통합 데이터를 생성하기 위한 접근방식은 많은 사용자 상호작용을 요구하거나 단순히 초기 실제 데이터 집합의 패턴을 복제하는 데 초점을 맞추지 않는 경..
2019.06.29 -
A Survey on GANs for Anomaly Detection 리뷰
도움이 되셨다면, 광고 한번만 눌러주세요. 블로그 관리에 큰 힘이 됩니다 ^^ 한번 썼다가 와이파이가 끊겨 다 날아가서... 힘든 마음으로 다시 쓴다..ㅠㅠㅠㅠㅠ Anomaly detection은 몇몇의 연구 분야에서 중요한 문제이다. 눈에 보이지 않는 것을 비정상적인 것으로 감지하고 올바르게 분류하는 것은 수년 동안 여러 가지 다른 방식으로 다루어졌던 도전적인 문제다. GAN과 Adversarial training 과정이 이 Anomaly detection 분야에서 최근 좋은 성과를 내고 있다고 한다. 본 논문에서는 GAN 기반의 이상 징후 탐지 방법을 조사하여 장단점을 강조한다. 여기서 괜찮은 것은 다시 한번 또 리뷰를 해야겠다. 볼 논문은 넘쳐난다... 졸꾸졸꾸.... (파파고와 함께라면....) ..
2019.06.29 -
Generation of Synthetic Data with Generative Adversarial Networks - 리뷰 3 [Chapter 4]
Analysis and results the efficiency, the preservation of the data distribution, the preservation of the correlation patterns, and the generation of quality text 4.1 Overall analysis and results 표 4.1은 세 가지 사례 연구 중 한 가지에 대해 실험에서 생성된 데이터의 양을 나타낸다. 사례 D1 및 D2에 대해 명시된 원래 데이터 크기가 원래 데이터 세트 크기에서 무작위로 샘플링한 후 교육 데이터 세트의 크기라는 점을 지적해야 한다. D3의 경우, 데이터 세트 크기가 상당히 작았기 때문에 모든 데이터가 훈련에 사용되었다. 수집된 전체 지표에서, 생성된 ..
2019.06.28 -
Generation of Synthetic Data with Generative Adversarial Networks - 리뷰 2 [Chapter 3]
Chapter 3 Generation of Synthetic Data with GANs 이 연구에서 가장 기여한 점은 GAN framework를 기반으로 한 포괄적인 데이터 생성 접근의 Design과 Test에 있다고 한다. 3.1 The data generation process 8개 단계로 진행 Input은 생성할 데이터의 셋에 해당하는 2차원 관련 구조의 집합인 반면, Output은 동일한 포맷의 합성 데이터로 채워진 유사한 집합이다. 데이터 types와 schema를 탐지하는 것부터 시작. 데이터 속성들 사이에서 co-relation을 잡을 수 있게 Pattern Analysis를 수행해야 한다. Input Data를 기계 학습 모델과 데이터 생성에 사용되는 통계 기능으로 이해할 수 있도록 fea..
2019.06.26 -
Generation of Synthetic Data with Generative Adversarial Networks - 리뷰 1
2018/10/07 먼가 이미지에서 내가 찾고 있는 것이 나온 것 같아서 한번 파보려고 한다. 페이지는 72... 필요한 것만 볼 예정이니, 한번 보는 것을 추천! Abstract synthetic data 생성의 목적은 real 한 데이터를 제공해주지 못하거나, 제한되게 제공할 경우에 사용한다. 민감한 데이터 일 경우 그것을 함부로 원본을 주기가 어려울 것이다. 전통적인 방법들은 중요한 통계적인 성질을 잘 복제하지 못한다. 성질들이라고 하면은 distribution, the patterns or the correlation between variables, are often omitted 게다가 기존 방법들은 최근에 핫한 딥러닝이나 머신러닝 방법을 사용하지 않고 있다. 그래서 기존은 GAN은 이미지와 ..
2019.06.25 -
The Synthetic data vault - 논문리뷰
2016년 논문이지만, Table data 생성에 대해서 접근한 논문인 것 같아서 읽어보려고 한다! 사실 여기선 SDV에 대해서 설명을 하지만, 크게 관심은 없다. 합성 데이터를 어떻게 평가하는지 왜 그렇게 평가해야 하는지 그런 것에 초점을 맞추려고 한다. # Abstract Synthetic Data Vault라는 것을 제안한다. SDV란 관계형 데이터베이스를 생성하는 모델이다. # Introduction 수많은 이해관계자들과의 대화에서, 우리는 사생활 문제로 인해 데이터를 공유할 수 없는 것이 종종 기업이 외부의 도움을 받는 것을 방해한다는 것을 발견했다. 심지어 기업 내에서도 데이터 접근을 제한하는 요인에 의해 개발 및 시험이 저해될 수 있다. 이 논문 역시 Synthetic data를 생성함으로써..
2019.06.25 -
[Review] Deep learning method for synthesis of tabular data
Boogie Software라는 곳에서 tabular data를 GAN을 활용해서 만들어서 상업화가 되고 있는 것 같다. 개인적으로 계속해보고 있지만, 굉장히 불안전하다고 생각하는데, 벌써 상업화하고 있어서 참 빠르다고 생각한다. 은행 거래 데이터를 활용해서 하는 것 같다. 여기선 GAN을 활용해서 합성 데이터를 만든다고 한다. 은행 데이터에는 Categorical , Numerical 변수들이 많이 있는데, 이렇게 합성한 데이터를 training을 할 때나 test 할 때 쓴다고 한다. Data synthesis 막상 데이터는 있지만, 흔한 경우 그 데이터는 Privacy와 굉장히 밀접한 데이터 때문에 실제 데이터를 바로 사용하기가 어려운 경험들이 있을 것입니다. 그래서 상업적으로 사용하기 위해 비슷한..
2019.06.25 -
[Review] Character Region Awareness for Text Detection - (1)
네이버 크로버에서 쓴 OCR논문이다. 요즘 OCR 관련 상위에 있는 팀이기 때문에 열심히 배워야겠다. Abstract 최근에 Scene text detection은 Neural Network를 기반으로 한 방법이 급상승하고 있다. 이전 논문들은 엄격한 word-level로 박스를 만드는 것이 때문에 임의의 모양으로 있는 text 영역을 표현하기에는 어려웠다. 본 논문에서는, 문자 사이의 각 문자와 affinity을 탐구함으로써 텍스트 영역을 효과적으로 검출할 수 있는 new scene text detection 방법을 제안한다고 한다. 결국 chr들을 잘 잡은 다음에, 다시 잘 word로 바꿔주는 것 같다. 각각의 character level annotation의 부족을 극복하기 위해, 제안된 프레임워크..
2019.06.16 -
여러가지 구조의 Autoencoders
일반적인 AutoEncoder는 feed forward NN 구조인데, 이 구조에서는 인풋을 hidden으로 만들고 다시 인풋으로 만드는데, 이 hidden을 잘 학습을 하는 것이 목적이라고 할 수 있다. 이 포스트에서는 여러 가지 AutoEncoder 구조에 대해서 설명을 한다. 만약 우리가 수백만장의 이미지가 있고 각 이미지는 약 2MB를 차지하는데, 우리는 1MB만 제공할 수 있다. 이처럼 데이터 차원을 잘 줄여야 할 때 어떻게 해야 할까? 이미지를 잘 보다 보면, 정보와 무관한 것이 많이 있을 때가 있다. 예를 들어 배경 같은 것은 사실 이미지랑 관계없지 않은가! 그래서 이렇게 쓸모없는 정보를 줄일 수만 있다면 우리는 1MB짜리로 줄일 수 있을 것이다. 그래서 결국 Hidden으로 저장해서 많은 ..
2019.06.13 -
PySyft and the Emergence of Private Deep Learning -??
딥러닝을 적용을 할 때 핵심 요소는 바로 신뢰다. 훈련에서 최적화까지, 심층 학습 모델의 라이프사이클은 서로 다른 당사자 간의 신뢰할 수 있는 데이터 교환과 연계된다. 그러한 동향이 확실히 실험실 환경에 효과적이지만 모델에서 다른 참가자 사이의 신뢰할 수 있는 관계를 조작하는 여러 종류의 보안 공격에 취약하다. 금융거래를 이용하여 특정 고객의 신용위험을 분류하는 신용평가모형의 예를 들어보자. 모델을 훈련하거나 최적화하기 위한 전통적인 메커니즘은 그러한 활동을 수행하는 기업들이 모든 종류의 사생활 위험에 대한 문을 여는 그러한 재무 데이터 세트에 완전히 접근할 것이라고 가정한다. 딥러닝이 발전함에 따라서 데이터셋과 모델의 라이프사이클 동안 프라이버시 제약을 강제하는 메커니즘의 필요성이 점점 더 중요해지고 ..
2019.06.08 -
GAIN: Missing Data Imputation using Generative Adversarial Nets - 간단 리뷰
구조 Generator missing 부분을 완전히 채우기 discriminator의 오분류율을 최대화하게 하는 것이 목표. 최대화한다는 것을 적 진짜인지 가짜인지 구별을 못하게 하는 것 0.5로 만드는 것. Discriminator imputed components와 관측된 값 사이에서 분별하기 생성된 것과 기존의 것 사이에서 분류하는 분류 로스를 최소화해야 한다. hint discriminator에게 특정 정보를 좀 더 주는 역할 이것을 통해 generator는 true underlying data 분포에 따라서 생성할 수 있게 하는 길잡이 역할을 하는 듯 Generator missing부분은 Generator에서 가져오겠다는 의미 M은 Masking Matrix Discriminator 하지만 이런..
2019.06.08 -
UMAP은 어떻게 작동할까? (Uniform Manifold Approximation and Projection) - 3
https://data-newbie.tistory.com/171 UMAP은 어떻게 작동할까? (Uniform Manifold Approximation and Projection) - 2 https://data-newbie.tistory.com/169 UMAP은 어떻게 작동할까? (Uniform Manifold Approximation and Projection) - 1 저번에는 UMAP 실습 코드를 공유했는데, 이번에는 어떻게 작동하는지에 대해서, 공부해야 할.. data-newbie.tistory.com Finding a Low Dimensional Representation 그냥 사용만 하면 마음이 편한데, 알려고 하니 너무 어렵네요 예를 들면 통상적인 숫자 2 나 3에 퍼지의 사고방식을 도입하면 '..
2019.06.08