ML(머신러닝)/BASIC(17)
-
Measure Theory (Measureable space and Probability space) 공부해보기
개인 공부를 하려는 글로써, 분명히 틀린 부분이 있을 수 있습니다. 혹시 보시는 분이 있다면, 가볍게 봐주시고, 느낌만 알고 싶어서 하는 것이니 틀린 부분이 어디가 틀렸는지 댓글로 알려주시면 정말 감사하겠습니다. :) 이 부분에 대해서 글을 남기고 싶었던 이유는 항상 여기에 대해서 궁금하였는데, 잘 모르게 됐다가, 어느 글을 보고 대충 감이라도 얻게 되어서 정리를 하고 싶어서 남기게 되었다. Measure Space algebra 일종의 규칙을 담아 놓은 집합 예시) 위상수학에서의 Topology는 모든 열린 집합들의 집합 A (σ-algebra) or σ-field 모든 가측집합들의 집합 1. 어떤 것이 집합에 있다면, 그것의 여집합도 집합에 있어야 한다. 2. 공집합과 전체집합이 있어야 함 3. 마지..
2021.05.29 -
지도 학습에서 사용하는 목적 함수 정리하기
지도 학습에 목적 함수로는 크게 2개로 나눌 수가 있다. Regression Classification Objective Functions for Regression keras에서는 많은 Regression에 대한 목적 함수를 제공하고 있다. Regression 문제는 아래와 같이 D차원 공간 $R^D$의 독립 변수인 $x$와 종속 변수인 $y$ 사이에 선형 관계를 설정해야 한다. 2가지 관점에서 볼 수 있다. Ordinary Least Squares (uses Mean Squared Error, see above) Maximum Likelihood Estimation. $$y_i(x_i,w)=w_0+w_1x_{i1}+w_2x_{i2}+...+w_Dx_{iD}+\epsilon_i, \text{ i=1,2..
2020.03.12 -
MISSFOREST 알고리즘 설명
missing data는 통계적인 방법의 실재적 적용에 꽤 흔하다. 그리고 imputation은 완전하지 않은 데이터셋의 분석에서 쓰는 일반적인 통계적 기법이다. 2012년에 Stekhoven and Bühlmann 은 missing data를 처리하기 위해 iterative method라고 하는 missforest를 제안했다. 이 글에서는 missforest에 대해서 간단한 설명을 써보려고 한다. 흔히 MISSING에서는 3가지 메커니즘이 있다고 한다. MCAR과 MAR 같은 경우에는 수많은 방법으로 대체가 가능하다 (mean / mode imputation, conditional mean imputation (regression imputation), stochastic regression imput..
2019.10.01 -
차원 축소에 대한 10가지 팁(Ten quick tips for effective dimensionality reduction)
https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1006907 Ten quick tips for effective dimensionality reduction Citation: Nguyen LH, Holmes S (2019) Ten quick tips for effective dimensionality reduction. PLoS Comput Biol 15(6): e1006907. https://doi.org/10.1371/journal.pcbi.1006907 Editor: Francis Ouellette, University of Toronto, CANADA Published: June 20, 2019 Cop journals..
2019.08.11 -
Binary Classification 중 주의해야 할 것과 팁
흔하게 우리는 여러 가지 분류 문제에 대해서 경험을 하게 된다. 멀티 클래스를 분류해야 하는 경우도 있지만, 흔하게는 이진 분류를 많이 한다. 암이 있는지?없는지? 사기꾼인지? 아닌지? 와 같이 것이 하나의 예다. 분류 문제를 생각하게 된다면, 가장 많이 보는 것이 Confusion matrix 이다. 특정 Cut off를 이용해 2가지 중 하나로 분류해주고, 다음에 쉽게 눈으로 결과의 성능을 보는 역할을 한다. 보통 평가 메트릭으로는 accuracy를 본다. 말 그래도 정확도이기 때문에 많이들 보지만, 여기에는 문제가 있다. 바로 Imbalanced dataset 같은 경우에 문제가 된다. 예를 들어 사기범을 찾고 싶은 모델을 만들고 싶을 때, 사기범은 데이터 중에 얼마나 있을까? 아마 일반인에 비해서..
2019.05.30 -
모델평가와 성능평가 _미완성
도움이 되셨다면, 광고 한번만 눌러주세요. 블로그 관리에 큰 힘이 됩니다 ^^ 지도와 비지도 다양한 머신러닝 알고리즘 살펴봄 -> 모델 평가와 매개변수 선택에 대해 알아보자 비지도 학습은 선택하는 일 정성적인 일 = 정량적이지 않다는 말 지도 학습 위주로 살펴봄 평가를 위해서는 train_test_split = > train / test 모델 생성 => fit test 모델 평가 => score 메서드 score 메서드 -> 정확히 분류된 샘플의 비율을 계산하는 방법 train / test 나누는 이유 -> 새로운 데이터가 얼마나 일반화되어 있는지 측정하기 위해 안정적인 일반화를 위해 -> 교차 검증(cross validation) score R^2 이외에 다른 방법 from sklearn.dataset..
2018.01.15 -
데이터 표현과 특성 공학
ㅇ우리는 이제까지 보통 2차원 실수행 배열로 데인터 포인트 특성 - 연속형 특성 하지만 일반적인 특성의 전형적인 형태는 범주형 특성 또는 이산형 특성 -> 보통 숫자가 아님 범주형 특성과 연속형 특성의 차이 분류와 회귀 차이와 비슷하지만, 출력이 아닌 입력에 대한 점 연속형 - 픽셀 밝기, iris 측정값 범주형 - 제품의 브랜드, 색상, 판매분류 (연속된 값으로 나타나지 않는다) 책과 옷사이에는 중간 값 x , 순서도 x 하지만 데이터가 어떤 형태의 특성으로 구성되어 있는가 보다 -> 어떻게 표현하는지에 따라 머신러닝 성능의 영향을 크게 준다. 지도, 비지도에서는 스케일이 중요하다 함 / 스케일 조정 x -> 측정치가 cm / m 에 따라 차이가 생긴다. 상호작용 이나 다항식을 추가 특성으로 넣는 것도..
2018.01.11 -
지도_비지도 요약 및 정리
총 요약 및 정리 지도든 비지도든 전처리 분해 방법은 데이터 준비 단계에서 아주 중요한 부분 분해 , 매니폴드 학습, 군집 주어진 데이터에 대한 이해를 높이기 위한 필수 도구 레이블 정보가 없을 때 데이터를 분석할 수 있는 유일한 방법 지도 학습에서도 데이터 탐색 도구는 특성을 이해하기 위해 중요하다 비지도 학습의 성과 -> 정량화하기 어려움 ->하지만 통찰을 얻을 수 있다. SCIKIT-LEARN 인터페이스 모든 추정기(알고리즘들) 은 모델을 만뜰때 fit 메서드 제공 fit 메서드는 항상 첫 번째 데이터를 매개변수로 데이터 x 를 필요하다. 하나의 데이터 포인트가 하나의 행이고 연속된 실수값으로 표현 된 numpy 배열이나 scipy 희소행렬이다. 지도 학습 알고리즘은 회귀 분류에서 필요한 타깃값을 ..
2018.01.09 -
[ Python ]비지도 군집, 병합군집, 덴드로그램, DBSCAN
도움이 되셨다면, 광고 한번만 눌러주세요. 블로그 관리에 큰 힘이 됩니다 ^^ # 군집 데이터셋 -> 클러스터란느 그룹으로 나누는 것 , 한 클러스터 안의 데이터 포인트끼리는 매우 비슷, 다른 클러스터라는 구분 되도록 하는 것이 목표 분류 알고리즘과 비슷하게 군집 알고리즘은 각 데이터 포인트가 어느 클러스터에 속하는지 할당 (또는 예측) K-평균 군집 K-평균 군집은 가장 간단, 널리 사용하는 알고리즘 어떤 영역을 대표하는 클러스터 중심을 찾는다. 두단계를 반복 1. 데이터 포인트를 가장 가까운 클러스터 중심에 할당 2. 클러스터에 할당된 데이터 포인트의 평균으로 클러스터 중심을 다시 지정 -> 포인트 변화가 없을 때 종료 삼각형 : 클러스터 중심 / 원 : 데이터 포인트 클러스터 중심으로 삼을 데이터 ..
2018.01.09 -
비지도_PCA, NMF, 매니폴드 학습(T-SNE)
도움이 되셨다면, 광고 한번만 눌러주세요. 블로그 관리에 큰 힘이 됩니다 ^^ 차원축소, 특성 추출, 매니폴드 학습 변환하는 이유 -> 시각화하거나 , 데이터를 압축, 추가적인 처리를 위해서 주성분 분석, 특성 추출에 널리 사용되는 비음수 행렬 분해(NMF) 2차원 산점도를 이용해 시각화 용도로 많이 사용하는 t-SNE ## 주성분 분석(PCA) 통계적으로 상관관계가 없도록 데이터 셋을 회전 시키는 기술 -> 회전한 뒤에 데이터를 설명하는데 얼마냐 중요하냐에 따라 새로운 특성 중 일부만 선택됩니다. 첫번째 사진 "성분1" 분산이 가장 큰 방향 = 데이터에서 가장 많은 정보를 담고 있는 방향 =특성들의 상관관계가 가장 큰 방향 그다음으로 첫번째 방향과 직각인 방향중에서 가장 많은 정보를 담는 방향 찾기 2..
2018.01.07 -
비지도_전처리 스케일 조정
비지도 : 알고있는 출력 값이나 정보 없이 학습 알고리즘을 가르쳐야하는 머신러닝(입력데이터만으로도 지식 추출 가능) 비지도 종류 : 비지도 변환 과 군집 비지도 변환 : 데이터를 새롭게 표현하여 사람이나 다른 머신러닝 알고리즘이 원래 데이터보다 쉽게 해석할 수 있도록 만드는 알고리즘 많이 사용되는 분야 : 특성이 많은 고차원 데이터 -> 차원 축소 -> 꼭 필요한 특징을 포함한 데이터 데이터를 구성하는 성분을 찾기도 한다 -> 많은 텍스트 문서에서 주제추출하기 군집 : 데이터를 비슷한 것 끼리 그룹으로 묶는 것 -> 사진을 업로드 -> 분류 할때 같은 사람이 찍힌 사진을 같은 그룹으로 -> 누군지 얼마나 많은지 모름 사진에 나타난 모든 얼굴을 추출해서 비슷한 얼굴로 그룹짓는 방법이 있음 -> 이 얼굴이 ..
2018.01.07 -
지도 학습 알고리즘별 간단한 사용법 정리
“지도 학습 요약 정리” 최근접 이웃 작은 데이터 셋의 경우 , 기본 모델로서 좋고 설명하기 쉬움 선형 모델 첫번째로 시도하기 좋은 알고리즘, 대용량 데이터 셋 가능, 고차원 데이터에도 가능 나이브 베이즈 분류만 가능, 선형 모델보다 훨씬 가능 선형모델과 역할 비슷하지만 덜 정확 결정트리 매우 빠름, 데이터 스케일 조정 필요 없음, 시각화하기 좋음 랜덤포레스트 결정 트리보다 거의 좋은 트리 내보냄 , 매우 안정적이고 강력함데이터 스케일 조정 필요 없음 , 고차원 희소 데이터에는 부적합 그래디언트 부스팅 결정 트리 랜덤포레스트보다 성능 조금 더 좋음 그러나 학습은 조금 더 느리고 예측은 빠르고 메모리를 조금 사용매개변수 튜닝 할 것이 랜덤포레스트 보단 많음 서포트 벡터 머신 비슷한 의미의 특성들로 이뤄진 ..
2018.01.06