ML(머신러닝)(52)
-
정상 자기회귀 이동평균 과정
자기 회귀 과정 AR(P) 를 따르는 Z_t 는 일반적으로 후진작용소 B 를 이용하면 AR(P) 요약가능 아무튼 결론적으로 의 근의 절대값이 1보다 커야한다. 만약 근이 "1" 이라면 차분을 해야한다. # 정상성 가정은 의 근이 절대값이 1보다 커야한다. MA(moving average process) # 가역성 조건 만족하려면 의 근이 절대값이 1보다 커야한다. 시계열 그림을 봐야하지만 그림으로는 AR , MA 를 구별할 수가 없다. -> AIC, BIC SBC 로 판별을 통해 판단한다. ARMA 의 경우 양쪽 AR , MA 의 가역성 정상성을 항상 고려해야한다. 시계열도 양의 상관성 -> 평균으로 천천히 옴음의 상관성 -> 평균을 미친듯이 지나침iid -> 적당히 평균을 지나감 ACF 천천히 -> 1..
2018.03.20 -
시계열 자료
시간의 흐름에 따라 관측된 자료시간 간격 - 연도별, 계절별 , 월별, 일별, 시별 ,분별 --- 주로 월별을 많이 사용한다. 시계열 자료의 표현 Z(t) : t = 1,2, ... 또는 Z(1) , Z(2) ... 시계열 자료의 특징1. 시간의 영향을 받는다.2. 시계열 자료는 서로 독립이 아니다 -> 새로운 분석법 필요하다 가정 : 시계열 자료의 과거 패턴이 미래에도 지속적으로 유지된다는 가정하에 미래에 대한 예측 시행을 한다. 고려해야 할 성분 불규칙 성분, 추세 성분, 계절 성분 혼합해서 많이 나온다. 추세 성분이 2개로 이루어진 경우가 있는데 그럴 경우 과거 추세에 대한 데이터를 버리는 형식으로 볼 수 있고 2개를 안고 볼 수도 있다. 확률 과정(Random Process) : 확률법칙에 의해 ..
2018.03.20 -
모델평가와 성능평가 _미완성
도움이 되셨다면, 광고 한번만 눌러주세요. 블로그 관리에 큰 힘이 됩니다 ^^ 지도와 비지도 다양한 머신러닝 알고리즘 살펴봄 -> 모델 평가와 매개변수 선택에 대해 알아보자 비지도 학습은 선택하는 일 정성적인 일 = 정량적이지 않다는 말 지도 학습 위주로 살펴봄 평가를 위해서는 train_test_split = > train / test 모델 생성 => fit test 모델 평가 => score 메서드 score 메서드 -> 정확히 분류된 샘플의 비율을 계산하는 방법 train / test 나누는 이유 -> 새로운 데이터가 얼마나 일반화되어 있는지 측정하기 위해 안정적인 일반화를 위해 -> 교차 검증(cross validation) score R^2 이외에 다른 방법 from sklearn.dataset..
2018.01.15 -
데이터 표현과 특성 공학
ㅇ우리는 이제까지 보통 2차원 실수행 배열로 데인터 포인트 특성 - 연속형 특성 하지만 일반적인 특성의 전형적인 형태는 범주형 특성 또는 이산형 특성 -> 보통 숫자가 아님 범주형 특성과 연속형 특성의 차이 분류와 회귀 차이와 비슷하지만, 출력이 아닌 입력에 대한 점 연속형 - 픽셀 밝기, iris 측정값 범주형 - 제품의 브랜드, 색상, 판매분류 (연속된 값으로 나타나지 않는다) 책과 옷사이에는 중간 값 x , 순서도 x 하지만 데이터가 어떤 형태의 특성으로 구성되어 있는가 보다 -> 어떻게 표현하는지에 따라 머신러닝 성능의 영향을 크게 준다. 지도, 비지도에서는 스케일이 중요하다 함 / 스케일 조정 x -> 측정치가 cm / m 에 따라 차이가 생긴다. 상호작용 이나 다항식을 추가 특성으로 넣는 것도..
2018.01.11 -
지도_비지도 요약 및 정리
총 요약 및 정리 지도든 비지도든 전처리 분해 방법은 데이터 준비 단계에서 아주 중요한 부분 분해 , 매니폴드 학습, 군집 주어진 데이터에 대한 이해를 높이기 위한 필수 도구 레이블 정보가 없을 때 데이터를 분석할 수 있는 유일한 방법 지도 학습에서도 데이터 탐색 도구는 특성을 이해하기 위해 중요하다 비지도 학습의 성과 -> 정량화하기 어려움 ->하지만 통찰을 얻을 수 있다. SCIKIT-LEARN 인터페이스 모든 추정기(알고리즘들) 은 모델을 만뜰때 fit 메서드 제공 fit 메서드는 항상 첫 번째 데이터를 매개변수로 데이터 x 를 필요하다. 하나의 데이터 포인트가 하나의 행이고 연속된 실수값으로 표현 된 numpy 배열이나 scipy 희소행렬이다. 지도 학습 알고리즘은 회귀 분류에서 필요한 타깃값을 ..
2018.01.09 -
[ Python ]비지도 군집, 병합군집, 덴드로그램, DBSCAN
도움이 되셨다면, 광고 한번만 눌러주세요. 블로그 관리에 큰 힘이 됩니다 ^^ # 군집 데이터셋 -> 클러스터란느 그룹으로 나누는 것 , 한 클러스터 안의 데이터 포인트끼리는 매우 비슷, 다른 클러스터라는 구분 되도록 하는 것이 목표 분류 알고리즘과 비슷하게 군집 알고리즘은 각 데이터 포인트가 어느 클러스터에 속하는지 할당 (또는 예측) K-평균 군집 K-평균 군집은 가장 간단, 널리 사용하는 알고리즘 어떤 영역을 대표하는 클러스터 중심을 찾는다. 두단계를 반복 1. 데이터 포인트를 가장 가까운 클러스터 중심에 할당 2. 클러스터에 할당된 데이터 포인트의 평균으로 클러스터 중심을 다시 지정 -> 포인트 변화가 없을 때 종료 삼각형 : 클러스터 중심 / 원 : 데이터 포인트 클러스터 중심으로 삼을 데이터 ..
2018.01.09 -
비지도_PCA, NMF, 매니폴드 학습(T-SNE)
도움이 되셨다면, 광고 한번만 눌러주세요. 블로그 관리에 큰 힘이 됩니다 ^^ 차원축소, 특성 추출, 매니폴드 학습 변환하는 이유 -> 시각화하거나 , 데이터를 압축, 추가적인 처리를 위해서 주성분 분석, 특성 추출에 널리 사용되는 비음수 행렬 분해(NMF) 2차원 산점도를 이용해 시각화 용도로 많이 사용하는 t-SNE ## 주성분 분석(PCA) 통계적으로 상관관계가 없도록 데이터 셋을 회전 시키는 기술 -> 회전한 뒤에 데이터를 설명하는데 얼마냐 중요하냐에 따라 새로운 특성 중 일부만 선택됩니다. 첫번째 사진 "성분1" 분산이 가장 큰 방향 = 데이터에서 가장 많은 정보를 담고 있는 방향 =특성들의 상관관계가 가장 큰 방향 그다음으로 첫번째 방향과 직각인 방향중에서 가장 많은 정보를 담는 방향 찾기 2..
2018.01.07 -
비지도_전처리 스케일 조정
비지도 : 알고있는 출력 값이나 정보 없이 학습 알고리즘을 가르쳐야하는 머신러닝(입력데이터만으로도 지식 추출 가능) 비지도 종류 : 비지도 변환 과 군집 비지도 변환 : 데이터를 새롭게 표현하여 사람이나 다른 머신러닝 알고리즘이 원래 데이터보다 쉽게 해석할 수 있도록 만드는 알고리즘 많이 사용되는 분야 : 특성이 많은 고차원 데이터 -> 차원 축소 -> 꼭 필요한 특징을 포함한 데이터 데이터를 구성하는 성분을 찾기도 한다 -> 많은 텍스트 문서에서 주제추출하기 군집 : 데이터를 비슷한 것 끼리 그룹으로 묶는 것 -> 사진을 업로드 -> 분류 할때 같은 사람이 찍힌 사진을 같은 그룹으로 -> 누군지 얼마나 많은지 모름 사진에 나타난 모든 얼굴을 추출해서 비슷한 얼굴로 그룹짓는 방법이 있음 -> 이 얼굴이 ..
2018.01.07 -
지도 학습 알고리즘별 간단한 사용법 정리
“지도 학습 요약 정리” 최근접 이웃 작은 데이터 셋의 경우 , 기본 모델로서 좋고 설명하기 쉬움 선형 모델 첫번째로 시도하기 좋은 알고리즘, 대용량 데이터 셋 가능, 고차원 데이터에도 가능 나이브 베이즈 분류만 가능, 선형 모델보다 훨씬 가능 선형모델과 역할 비슷하지만 덜 정확 결정트리 매우 빠름, 데이터 스케일 조정 필요 없음, 시각화하기 좋음 랜덤포레스트 결정 트리보다 거의 좋은 트리 내보냄 , 매우 안정적이고 강력함데이터 스케일 조정 필요 없음 , 고차원 희소 데이터에는 부적합 그래디언트 부스팅 결정 트리 랜덤포레스트보다 성능 조금 더 좋음 그러나 학습은 조금 더 느리고 예측은 빠르고 메모리를 조금 사용매개변수 튜닝 할 것이 랜덤포레스트 보단 많음 서포트 벡터 머신 비슷한 의미의 특성들로 이뤄진 ..
2018.01.06 -
지도학습_ 커널 서포트 벡터 머신, 신경망
SVM 입력 데이터에서 단순한 초평면으로 정의되지 않는 더 복잡한 모델을 만들 수 있도록 확장한 것입니다.분류와 회귀 모두 사용 SVC SVR : 사용하는 회귀 문제에도 같은 개념을 적용 할 수 있다. 개념 설명 : 프리드먼 "THE ELEMENTS OF STATISTICAL LEARNING" 12장 선형 모델과 비선형 특성: 직선과 초평면 -> 유연하지 못함 -> 저차원 데이터셋에서는 매우 제한적선형 모델 유연하게 하는 법 -> 특성끼리 곱하거나 특성을 거듭제곱하는 식으로 새로운 특성 추가 from sklearn.svm import LinearSVC linear_svm = LinearSVC().fit(X, y) mglearn.plots.plot_2d_separator(linear_svm, X) mgle..
2018.01.06 -
지도학습 결정트리 앙상블(Randomforest, Gradient Boosting)
도움이 되셨다면, 광고 한번만 눌러주세요. 블로그 관리에 큰 힘이 됩니다 ^^ 결정 트리 1. 분류 / 2. 회귀모델 결정에 다다를 때까지 예/아니오 질문 이어가면서 학습 구분 예제는 예/아니오 연속적인 데이터에 적용한 테스트는 " 특성 i는 값 a 보다 큰가? " 계측적으로 영역을 분할해가는 알고리즘 ## 복잡도 제어하기 모든 leaf node 가 순수 노드가 될 때까지 진행하면 -> 과대적합 발생 (훈련 세트 100% 정확하게) -> 이상치에 너무 민감 과대 적합 막는 전략 크게 2가지 1) 사전 가지치기 -> 일찍 중단하는 전략 2) 데이터 포인트가 적은 노드를 삭제하거나 병합하는 전략(사후 가지치기) 1) 사전 가지치기 방법 트리의 최대 깊이나 리프의 최대 개수를 제한하거나 또는 노드를 분할하기 ..
2018.01.05 -
지도학습_k-최근접 이웃 , 선형모델(로지스틱,svm) , 나이브 베이즈 분류기
기준 scikit-learn package 나는 멀 해도 안먹히지만 Matplotlib에서한글 깨질 때 유용한 사이트 --> https://ansuchan.com/matplotlib-with-korean/ # 지도학습 # 입력과 출력 샘플이 있는 것# 분류 / 회귀# 분류 - 이진 분류, 다중 분류 # 회귀 - 부동수소점수(실수)를 예측 # k-최근접 이웃# 가장 간단한 머신러닝 # 장단점# 2개의 중요한 매개변수 # 1. 데이터 포인트 사의의 거리를 재는 방법# 2. 이웃의 수 # 다양한 거리를 재는 방식이 나와 있음# 장점 : 1. 이해하기 쉬운 모델 # 단점 : 전처리가 중요하다. , 예측이 느리고 특성 처리 부족 # 이러한 단점 해결 모델 -> 선형 모델 ## 선형 모델 # 모델 파라미터 w 와 ..
2018.01.03