분류 전체보기(862)
-
GAIN: Missing Data Imputation using Generative Adversarial Nets - 간단 리뷰
구조 Generator missing 부분을 완전히 채우기 discriminator의 오분류율을 최대화하게 하는 것이 목표. 최대화한다는 것을 적 진짜인지 가짜인지 구별을 못하게 하는 것 0.5로 만드는 것. Discriminator imputed components와 관측된 값 사이에서 분별하기 생성된 것과 기존의 것 사이에서 분류하는 분류 로스를 최소화해야 한다. hint discriminator에게 특정 정보를 좀 더 주는 역할 이것을 통해 generator는 true underlying data 분포에 따라서 생성할 수 있게 하는 길잡이 역할을 하는 듯 Generator missing부분은 Generator에서 가져오겠다는 의미 M은 Masking Matrix Discriminator 하지만 이런..
2019.06.08 -
UMAP은 어떻게 작동할까? (Uniform Manifold Approximation and Projection) - 3
https://data-newbie.tistory.com/171 UMAP은 어떻게 작동할까? (Uniform Manifold Approximation and Projection) - 2 https://data-newbie.tistory.com/169 UMAP은 어떻게 작동할까? (Uniform Manifold Approximation and Projection) - 1 저번에는 UMAP 실습 코드를 공유했는데, 이번에는 어떻게 작동하는지에 대해서, 공부해야 할.. data-newbie.tistory.com Finding a Low Dimensional Representation 그냥 사용만 하면 마음이 편한데, 알려고 하니 너무 어렵네요 예를 들면 통상적인 숫자 2 나 3에 퍼지의 사고방식을 도입하면 '..
2019.06.08 -
Scipy에서 제공하는 분포간 거리 함수(Statistical Distance)와 차이점.
우연히 유튜브에서 추천해준 2018 Detecting Anomalies Using Statistical Distances 이 내가 관심이 있는 Anomaly detection과 Statistica Distance라서 듣게 되었고, 좋은 것을 많이 얻어서 공유합니다. 그렇다면 Quantile로 하면 되지 않느냐? 이렇게 간단한 통계량 값만 이용해서는 충분하지 못하다. 그러므로 이런 통계량 값들을 결합해서 사용하거나, 통계적 거리를 사용해야 한다. Statistical Distance Kolmogorov-Smirnov Distance 하지만 약간 기존 family가 아닌 쌍봉 같은 경우가 나오는 경우 KS로 거리를 재게 되면, 다음과 같은 문제가 생긴다. 멀리 떨어져있어도 거의 같은 값으로 표현이 된다. 그..
2019.06.08 -
UMAP은 어떻게 작동할까? (Uniform Manifold Approximation and Projection) - 2
https://data-newbie.tistory.com/169 UMAP은 어떻게 작동할까? (Uniform Manifold Approximation and Projection) - 1 저번에는 UMAP 실습 코드를 공유했는데, 이번에는 어떻게 작동하는지에 대해서, 공부해야 할 필요성이 생겨서 글을 남기면서 공부하려고 한다. https://data-newbie.tistory.com/134?category=687142 UMAP (Unifor.. data-newbie.tistory.com 이번에는 실제 어떻게 적용이 되는지에 대한 내용이 있어서 확인을 해보려고 합니다. Adapting to Real World Data 앞에서는 설명된 접근 방식은 왜 근방 그래프 기반 접근 방식이 차원 축소를 수행할 때 매니..
2019.06.06 -
UMAP은 어떻게 작동할까? (Uniform Manifold Approximation and Projection) - 1
저번에는 UMAP 실습 코드를 공유했는데, 이번에는 어떻게 작동하는지에 대해서, 공부해야 할 필요성이 생겨서 글을 남기면서 공부하려고 한다. https://data-newbie.tistory.com/134?category=687142 UMAP (Uniform Manifold Approximation and Projection) 이것의 관심을 가진 이유는 원래 기본적인 T-SNE은 Visualization 용으로만 쓰는데, 실제로 이 패키지에서는 그 Embedding 한 것을 변수로 사용할 수 있다고 합니다. 그래서 train을 학습시켜서 그걸 다시 test에.. data-newbie.tistory.com https://umap-learn.readthedocs.io/en/latest/how_umap_wor..
2019.06.05 -
[ Python ] 메모리 누수 해결에 도움되는 패키지 소개
도움이 되셨다면, 광고 한번만 눌러주세요. 블로그 관리에 큰 힘이 됩니다 ^^ 최근에 UI를 만들어야 하는 일을 하고 있었는데, 같은 것을 실행하는데 누적되는 문제가 발생하였다. gc.collect()를 해도 소용이 없어서, 여러 가지를 찾다가 다음과 같은 것이 나와서 공유한다. 실제 테스트를 하니, 같은 작업을 반복할 때는 그만큼 데이터가 계속해서 쌓이지는 않았다. 아직 문제는 할당된 메모리가 다시 돌아오지 않는 다는 점....... (어디로 간 거냐....) ## 190605 기준 최신 버전은 5.2입니다. # installing jemalloc wget https://github.com/jemalloc/jemalloc/releases/download/5.2.0/jemalloc-5.2.0.tar.bz..
2019.06.05 -
Uncertainty Autoencoders: Learning Compressed Representations via Variational Information Maximization - 리뷰
Blog Paper Code https://ermongroup.github.io/blog/uae/?fbclid=IwAR0oO4bGeZA_gQ_eex2WRCH4UQwdJ6M-I-klDc5SHlRy1JLd4Uoh4eo3VX0 https://arxiv.org/pdf/1812.10539.pdf https://github.com/aditya-grover/uae https://data-newbie.tistory.com/153 Deep Compressed Sensing [ 허접 주의 ] 사실 머라고 하는지 잘 모르겠다ㅎㅎ 코드는 공개가 되어있지만, 논문에 나온 mnist로 한 것은 없다보니,,, 일단 딥마인드가 했다길래, 빠르게 보려고 했는데, 딱히 나와는 큰 상관이 없어보여서 일단 왠지 큰 느.. data-newb..
2019.06.05 -
[Tensorflow] Cyclical Learning Rate
먼가 지금 학습을 시키는 것이 있는데, 먼가 추가적으로 데이터를 넣으면서 시키는 중이다. 그런데 현재 구조는 learning deacy 방식으로 사용하다 보니, 점점 학습률은 떨어져서 새로운 데이터에 대해서 그만큼 새로운 최적의 값을 못찾는 기분이라서, learning rate를 어떻게 해봐야겠다고 생각을 하고 다음과 같이 수정을 해보려고 한다! 그래서 알아본게 Cyclical로 주기를 만드는 방식이다. 이러면 잘 되겠지 하고 기대를 하면서!!!!!!!!!! cyclic_learning_rate( global_step, ## Epoch 의미 learning_rate=0.01, max_lr=0.1, ## 최대 learning rate step_size=20., gamma=0.99994, ## 폭? 작게 할..
2019.06.05 -
[변수 생성] AutoEncoder로 파생변수 만들기 -2 (모델링 파트) Catboost
https://data-newbie.tistory.com/163 AutoEncoder로 파생변수 만들기 데이터 분석을 하다보면, 새로운 파생변수를 만들어야 할 때가 있다. 개인적으로 나도 그러한 부분에 관심이 있어서 여래개로 포스팅을 했는데, 한번 보시면 도움이 될 것 같다. https://data-newbie.tistory.com/.. data-newbie.tistory.com ## 모델링 파트 이전에 AutoEncoder에서 얻은 Code값을 이용해서 모델링을 해봤습니다. 모델은 tree-based model 중에서 그나마 Parameter에 크게 의존하지 않는다는 catboost로 하였습니다. 궁금하신분은 https://data-newbie.tistory.com/131?category=750846 ..
2019.06.02 -
[변수 생성] AutoEncoder로 파생변수 만들기
데이터 분석을 하다보면, 새로운 파생변수를 만들어야 할 때가 있다. 개인적으로 나도 그러한 부분에 관심이 있어서 여래개로 포스팅을 했는데, 한번 보시면 도움이 될 것 같다. https://data-newbie.tistory.com/148?category=749566 https://data-newbie.tistory.com/93?category=749566 https://data-newbie.tistory.com/93?category=749566 그렇다면 결국 도메인이 중요한 것이고 즉 협엽이 잘 될 때 Feature Engineering도 빛을 발하게 되는데, 사실 현실은 그렇지 못하다. 만약 자기 데이터를 가지고 할 경우, 그러한 부분에 대해서 충분히 고려하고, 자주 데이터를 만질 수도 있지만, 만약 ..
2019.06.02 -
[ Python ] Python에서도 R처럼 data.table을 사용할 수 있어요.
Python에서 대부분의 데이터를 읽을 때 주로 Pandas를 사용하지만, 작은 데이터를 읽을 때는 상관이 없다. 하지만 최근에 34GB짜리를 읽어보려고 했는데, 시간을 많이 잡아먹어서 스트레스를 너무 많이 받았다. 머 Spark나 이런 걸 사용하면 된다고 하지만, 전처리를 좀 하고 싶었던 게 있었는데, 아직 내가 Spark 같은 것을 잘 사용하지 못해서 결국 Pandas로 하였다. data.table은 알려진 바로는 단일 머신으로 했을 때 가장 빠르게 데이터 핸들링을 할 수 있는 도구다. 이 글에서는 100GB까지 된다고 하니, 잘 사용할 줄 알아야겠다. ## 리눅스 버전 # If you have Python 3.5 pip install https://s3.amazonaws.com/h2o-release..
2019.06.02 -
AutoEncoder를 사용하여 희귀케이스 잡기
도움이 되셨다면, 광고 한번만 눌러주세요. 블로그 관리에 큰 힘이 됩니다 ^^ 페북에서 유명하게 공유가 되고, 개인적으로도 관심이 있는 글이라 빠르게 읽고 쓰려고 한다. 코드는 medium을 참고하기 바란다! 코드는 밑에 URL https://towardsdatascience.com/extreme-rare-event-classification-using-autoencoders-in-keras-a 565b386f098?fbclid=IwAR32xfDs_a8mAtBz6tRamLVwZVtZESWbkelX8-lRNkWKqPkKqHlR5-Gy2e4 Extreme Rare Event Classification using Autoencoders in Keras In this post, we will learn how ..
2019.06.01