관심있는 주제/분석 고려 사항(18)
-
[ToDo] Contrastive Learning 알아보기
What is Contrastive Learning? 대조 학습(Contrastive Learning)은 레이블이 지정되지 않은 데이터 요소가 서로 병치되어 어떤 점이 유사하고 다른 모델을 가르칠 수 있는지 기계 학습 패러다임입니다. 즉, 이름에서 알 수 있듯이 샘플은 서로 대조되며, 동일한 분포에 속하는 샘플은 임베딩 공간에서 서로 밀린다. 이와는 대조적으로, 서로 다른 분포에 속하는 이들은 서로 끌어당긴다. Representation Learning 2가지 접근법이 존재 (생성 모델, 판별 모델) 생성 모델로 데이터의 표현을 학습하는 경우, 비지도 학습이기 때문에 데이터 구축 비용이 낮다는 장점 또한 저차원 표현을 학습하는데에 있어 목적함수가 보다 일반적이라는 장점이 잇다. 판별 모델의 경우에는 계산..
2022.08.13 -
GAIN CHART와 LIFT CHART 이해하기
GAIN CHART 및 LIFT CHART는 모델 사용의 이점을 측정하는 데 사용되며 대상 마케팅과 같은 비즈니스 컨텍스트에서 사용되는 두 가지 측정값입니다. 마케팅 분석에만 국한되지 않습니다. 위험 모델링, 공급망 분석 등과 같은 다른 영역에서도 사용할 수 있습니다. 즉, GAIN 및 LIFT CHART는 불균형(IMBALANCED) 데이터 세트로 분류 문제를 해결하는 동안 사용되는 두 가지 접근 방식입니다. Gain Chart: Lift Chart Calculation: Lift Chart: 참고 https://www.geeksforgeeks.org/understanding-gain-chart-and-lift-chart/ Understanding Gain Chart and Lift Chart - Ge..
2022.08.04 -
KS(Kolmogorov-Smirnov Statistics) 통계량 알아보기
Kolmogorov-Smirnov(KS) 통계는 예측 모델을 검증하는 데 사용되는 가장 중요한 메트릭 중 하나입니다. 특히 Banking, Financial services and Insurance (BFSI) 도메인에서 자주 사용됩니다. 은행에서 프로젝트를 수행하는 위험 또는 마케팅 분석 팀의 일원이라면 이 지표에 대해 들어봤을 것입니다. 정의 검색을 하면 가장 많이 나오는 정의는 다음과 같습니다. K-S 통계량은 우량 집단과 불량집단의 누적 분포의 차이를 나타내는 지표로 신용평가모형의 변별력 평가 시 주요 판별 통계량으로 활용됩니다. 먼가 금융 용어가 많이 섞여 이해하기 어려울 수 있지만, 간단하게 말하면, 2개의 집단이 동일한 분포를 이루고 있는 지를 검증하는 검증 지표라고 할 수 있습니다. 위에 ..
2022.07.30 -
Feature Gradients: Scalable Feature Selection via Discrete Relaxation 리뷰 (이해X)
nni(neural network intelligence)라는 microsoft에서 만든 오픈 소스가 있다. 이 오픈 소스는 자동 머신 러닝을 지원하고 있다. 확인을 하던 도중 변수 선택 방법에서 Feature Gradient라는 방법이 있었다. 기존에 잘 알지 못했던 방법이기도 하고, 실제로 들어가 있으니 좋은 방법일거라고 생각해서 논문을 읽어보기로 했다. 실제 구현 코드도 내부에 있어서 괜찮다 싶으면 더 자세히 파야겠다. 본 논문에서는 Feature Gradents 라고 하는 변수 선택을 위한 gradient based search algorithm을 제안한다. 해당 알고리즘은 combinational optimization 문제로써 변수 선택을 다루고, 효율적으로 가능한 변수 셋들의 공간을 탐험하기..
2020.04.21 -
Pytorch vs Tensorflow 비교
Tensorflow2.0 이냐 Pytorch 나에 대해서 갈림길에 놓여있는 필자와 연구자들을 위해 관련 자료들을 모아서 비교하는 자료를 만들고자 함. 개인적으로 현재 2020년 03월 05일 시점에서는 Tensorflow2.0이 아직 버그가 많아서 Pytorch가 더 좋아 보이는 게 개인적인 생각임(그러나 필자는 tensorflow 1.x 유저) 일단 현재 많은 연구자들의 논문에서 Tensorflow 보다 Pytorch 관련 논문의 비율이 앞도적으로 늘어나고 있음. 그리고 전체 논문에서도 Torch가 Tensorflow보다 많은 비율을 차지하고 있는 추세임. 그렇다면 연구자들은 tensorflow 대비 pytorch에 어떠한 장점으로 인해 이런 추세를 가지게 된 걸까? 필자는 사실 배포에 관한 문제로 인..
2020.03.05 -
Tricks for Manipulating Probability - 리뷰
확률 값에 대해서 더 잘 처리하는 것이 필요하다고 생각은 하지만, 실제 관련 글을 우연히 찾게 돼서 읽어 보기로 하였다. 머신 러닝이나 인공 지능의 근본적인 문제를 해결하기 위해서는 확률의 기교가 필요하다. 저자의 블로그는 계산을 더 쉽고 때로는 심지어 가능하게 만들기 위해 서로 다른 확률 문제에 적용된 다양한 기술들을 종합하는 것을 목표로 한다! 이 블로그는 확률과 기댓값에 대한 기본 이해를 가정한다. 1. Identity Trick This transforms an expectation of f(x) p(x)f(x) 를 q(x) g(x, f)로 바꿔서 푸는 것이다. Bayes's formula안에서 Evidence Calculation 은 다차원 변수에서 풀기 어려운 문제다. Generative Mo..
2019.12.28 -
Knowledge is Everything: Using Representation Learning to Optimize Feature Extraction and Knowledge Quality - 리뷰
Representation Learning 은 딥러닝에서 특징 추출과 지식 구축을 능률화하게 하는 가장 효과적인 기술 중 하나다. 최근 이 저자는 딥러닝 모델들에서 특징 추출의 중요성을 상기하게 해 준 몇 가지 일이 있었다고 한다. 그래서 저자는 딥러닝과 모델에서의 지식 품질의 원칙과 이러한 시나리오들에 대한 representation learning의 적용 가능성에 대해서 요약한 글이다. 인풋 데이터의 특징을 이해하는 것은 머신러닝 알고리즘들의 필수적인 능력이다. 주어진 인풋에서 머신러닝 모델들은 몇몇의 타겟 행동을 수행하기 위해서 뚜렷한 특징들을 추론할 필요가 있다. Representation Learning이나 Feature Learning은 데이터셋의 representation의 이해나 특징을 추..
2019.12.28 -
Dataset Shift에 대한 이해 (4) - Identifying Dataset Shift, Handling Dataset Shift (실용 파트)
https://towardsdatascience.com/understanding-dataset-shift-f2a5a262a766 Dataset Shift에 대한 이해 (1) - Covariate Shift Dataset Shift에 대한 이해 (2) - Prior probability Shift, Concept Drift Dataset Shift에 대한 이해 (3) - Internal Covariate Shift, Sample selection bias, Non -stationary environments Identifying Dataset Shift 데이터 세트에 이동이 있는지 여부와 그 심각도를 결정하는 데 사용할 수 있는 몇 가지 방법이 있다. 일부 프로덕션 시스템에서는 사후 분석을 수행할 필요가 ..
2019.12.17 -
Dataset Shift에 대한 이해 (3) - Internal Covariate Shift, Sample selection bias, Non -stationary environments
눈 딱감고 한번만 광고 눌러주세요! https://towardsdatascience.com/understanding-dataset-shift-f2a5a262a766 Dataset Shift에 대한 이해 (1) - Covariate Shift Dataset Shift에 대한 이해 (2) - Prior probability Shift, Concept Drift Internal Covariate Shift 이러한 토픽에 대해서 관심을 가지게 된 이유는 딥러닝 네트워크에 히든 레이어들의 공변량 변화를 의심되는 영향 때문이다. 연구자들은 후속 계층에 대한 입력으로 사용되는 특정 숨겨진 계층의 출력에 의한 활성 분포의 변화 때문에, 네트워크 계층은 깊은 신경 네트워크의 훈련을 방해할 수 있는 공변량 이동에 시달릴 ..
2019.12.16 -
Dataset Shift에 대한 이해 (2) - Prior probability Shift, Concept Drift
눈 딱감고 한번만 광고 눌러주세요! https://towardsdatascience.com/understanding-dataset-shift-f2a5a262a766 https://data-newbie.tistory.com/354 왜 필요한지와 Covariate Shift는 위의 글을 참고! Dataset shift에 대한 다양한 이상 징후 Covariate shift Prior probability shift Concept shift Internal covariate shift (an important subtype of covariate shift) Prior Probability Shift Covariate Shift가 인풋 변수의 분포의 변화에 초점을 맞췄다면, Prior Probability Sh..
2019.12.15 -
Dataset Shift에 대한 이해 (1) - Covariate Shift
눈 딱감고 한번만 광고 눌러주세요! https://towardsdatascience.com/understanding-dataset-shift-f2a5a262a766 Understanding Dataset Shift How to make sure your models are not fooled by tricks of your data. towardsdatascience.com 데이터가 하는 속임수에 속지 않은 방법. Dataset Shift, The MIT Press. Dataset Shift는 인풋들과 아웃풋의 결합 분포가 training과 test 단계 사이에서 도전해야 하는 상황이다. 저자는 Dataset Shift 원인과 징후들에 대한 더 깊은 논의가 데이터 과학계에 도움이 된다고 생각한다. 실제 ..
2019.12.15 -
PySyft and the Emergence of Private Deep Learning -??
딥러닝을 적용을 할 때 핵심 요소는 바로 신뢰다. 훈련에서 최적화까지, 심층 학습 모델의 라이프사이클은 서로 다른 당사자 간의 신뢰할 수 있는 데이터 교환과 연계된다. 그러한 동향이 확실히 실험실 환경에 효과적이지만 모델에서 다른 참가자 사이의 신뢰할 수 있는 관계를 조작하는 여러 종류의 보안 공격에 취약하다. 금융거래를 이용하여 특정 고객의 신용위험을 분류하는 신용평가모형의 예를 들어보자. 모델을 훈련하거나 최적화하기 위한 전통적인 메커니즘은 그러한 활동을 수행하는 기업들이 모든 종류의 사생활 위험에 대한 문을 여는 그러한 재무 데이터 세트에 완전히 접근할 것이라고 가정한다. 딥러닝이 발전함에 따라서 데이터셋과 모델의 라이프사이클 동안 프라이버시 제약을 강제하는 메커니즘의 필요성이 점점 더 중요해지고 ..
2019.06.08