분류 전체보기(849)
-
지도_비지도 요약 및 정리
총 요약 및 정리 지도든 비지도든 전처리 분해 방법은 데이터 준비 단계에서 아주 중요한 부분 분해 , 매니폴드 학습, 군집 주어진 데이터에 대한 이해를 높이기 위한 필수 도구 레이블 정보가 없을 때 데이터를 분석할 수 있는 유일한 방법 지도 학습에서도 데이터 탐색 도구는 특성을 이해하기 위해 중요하다 비지도 학습의 성과 -> 정량화하기 어려움 ->하지만 통찰을 얻을 수 있다. SCIKIT-LEARN 인터페이스 모든 추정기(알고리즘들) 은 모델을 만뜰때 fit 메서드 제공 fit 메서드는 항상 첫 번째 데이터를 매개변수로 데이터 x 를 필요하다. 하나의 데이터 포인트가 하나의 행이고 연속된 실수값으로 표현 된 numpy 배열이나 scipy 희소행렬이다. 지도 학습 알고리즘은 회귀 분류에서 필요한 타깃값을 ..
2018.01.09 -
[ Python ]비지도 군집, 병합군집, 덴드로그램, DBSCAN
도움이 되셨다면, 광고 한번만 눌러주세요. 블로그 관리에 큰 힘이 됩니다 ^^ # 군집 데이터셋 -> 클러스터란느 그룹으로 나누는 것 , 한 클러스터 안의 데이터 포인트끼리는 매우 비슷, 다른 클러스터라는 구분 되도록 하는 것이 목표 분류 알고리즘과 비슷하게 군집 알고리즘은 각 데이터 포인트가 어느 클러스터에 속하는지 할당 (또는 예측) K-평균 군집 K-평균 군집은 가장 간단, 널리 사용하는 알고리즘 어떤 영역을 대표하는 클러스터 중심을 찾는다. 두단계를 반복 1. 데이터 포인트를 가장 가까운 클러스터 중심에 할당 2. 클러스터에 할당된 데이터 포인트의 평균으로 클러스터 중심을 다시 지정 -> 포인트 변화가 없을 때 종료 삼각형 : 클러스터 중심 / 원 : 데이터 포인트 클러스터 중심으로 삼을 데이터 ..
2018.01.09 -
비지도_PCA, NMF, 매니폴드 학습(T-SNE)
도움이 되셨다면, 광고 한번만 눌러주세요. 블로그 관리에 큰 힘이 됩니다 ^^ 차원축소, 특성 추출, 매니폴드 학습 변환하는 이유 -> 시각화하거나 , 데이터를 압축, 추가적인 처리를 위해서 주성분 분석, 특성 추출에 널리 사용되는 비음수 행렬 분해(NMF) 2차원 산점도를 이용해 시각화 용도로 많이 사용하는 t-SNE ## 주성분 분석(PCA) 통계적으로 상관관계가 없도록 데이터 셋을 회전 시키는 기술 -> 회전한 뒤에 데이터를 설명하는데 얼마냐 중요하냐에 따라 새로운 특성 중 일부만 선택됩니다. 첫번째 사진 "성분1" 분산이 가장 큰 방향 = 데이터에서 가장 많은 정보를 담고 있는 방향 =특성들의 상관관계가 가장 큰 방향 그다음으로 첫번째 방향과 직각인 방향중에서 가장 많은 정보를 담는 방향 찾기 2..
2018.01.07 -
비지도_전처리 스케일 조정
비지도 : 알고있는 출력 값이나 정보 없이 학습 알고리즘을 가르쳐야하는 머신러닝(입력데이터만으로도 지식 추출 가능) 비지도 종류 : 비지도 변환 과 군집 비지도 변환 : 데이터를 새롭게 표현하여 사람이나 다른 머신러닝 알고리즘이 원래 데이터보다 쉽게 해석할 수 있도록 만드는 알고리즘 많이 사용되는 분야 : 특성이 많은 고차원 데이터 -> 차원 축소 -> 꼭 필요한 특징을 포함한 데이터 데이터를 구성하는 성분을 찾기도 한다 -> 많은 텍스트 문서에서 주제추출하기 군집 : 데이터를 비슷한 것 끼리 그룹으로 묶는 것 -> 사진을 업로드 -> 분류 할때 같은 사람이 찍힌 사진을 같은 그룹으로 -> 누군지 얼마나 많은지 모름 사진에 나타난 모든 얼굴을 추출해서 비슷한 얼굴로 그룹짓는 방법이 있음 -> 이 얼굴이 ..
2018.01.07 -
지도 학습 알고리즘별 간단한 사용법 정리
“지도 학습 요약 정리” 최근접 이웃 작은 데이터 셋의 경우 , 기본 모델로서 좋고 설명하기 쉬움 선형 모델 첫번째로 시도하기 좋은 알고리즘, 대용량 데이터 셋 가능, 고차원 데이터에도 가능 나이브 베이즈 분류만 가능, 선형 모델보다 훨씬 가능 선형모델과 역할 비슷하지만 덜 정확 결정트리 매우 빠름, 데이터 스케일 조정 필요 없음, 시각화하기 좋음 랜덤포레스트 결정 트리보다 거의 좋은 트리 내보냄 , 매우 안정적이고 강력함데이터 스케일 조정 필요 없음 , 고차원 희소 데이터에는 부적합 그래디언트 부스팅 결정 트리 랜덤포레스트보다 성능 조금 더 좋음 그러나 학습은 조금 더 느리고 예측은 빠르고 메모리를 조금 사용매개변수 튜닝 할 것이 랜덤포레스트 보단 많음 서포트 벡터 머신 비슷한 의미의 특성들로 이뤄진 ..
2018.01.06 -
지도학습_ 커널 서포트 벡터 머신, 신경망
SVM 입력 데이터에서 단순한 초평면으로 정의되지 않는 더 복잡한 모델을 만들 수 있도록 확장한 것입니다.분류와 회귀 모두 사용 SVC SVR : 사용하는 회귀 문제에도 같은 개념을 적용 할 수 있다. 개념 설명 : 프리드먼 "THE ELEMENTS OF STATISTICAL LEARNING" 12장 선형 모델과 비선형 특성: 직선과 초평면 -> 유연하지 못함 -> 저차원 데이터셋에서는 매우 제한적선형 모델 유연하게 하는 법 -> 특성끼리 곱하거나 특성을 거듭제곱하는 식으로 새로운 특성 추가 from sklearn.svm import LinearSVC linear_svm = LinearSVC().fit(X, y) mglearn.plots.plot_2d_separator(linear_svm, X) mgle..
2018.01.06 -
지도학습 결정트리 앙상블(Randomforest, Gradient Boosting)
도움이 되셨다면, 광고 한번만 눌러주세요. 블로그 관리에 큰 힘이 됩니다 ^^ 결정 트리 1. 분류 / 2. 회귀모델 결정에 다다를 때까지 예/아니오 질문 이어가면서 학습 구분 예제는 예/아니오 연속적인 데이터에 적용한 테스트는 " 특성 i는 값 a 보다 큰가? " 계측적으로 영역을 분할해가는 알고리즘 ## 복잡도 제어하기 모든 leaf node 가 순수 노드가 될 때까지 진행하면 -> 과대적합 발생 (훈련 세트 100% 정확하게) -> 이상치에 너무 민감 과대 적합 막는 전략 크게 2가지 1) 사전 가지치기 -> 일찍 중단하는 전략 2) 데이터 포인트가 적은 노드를 삭제하거나 병합하는 전략(사후 가지치기) 1) 사전 가지치기 방법 트리의 최대 깊이나 리프의 최대 개수를 제한하거나 또는 노드를 분할하기 ..
2018.01.05 -
완벽한 공부법
1. 믿음 정의 1. 기대 : 자신의 미래에 관한 믿음.2. mindset : 자기 존재에 관한 믿음이며 자신을 바라보는 사고 방식3. 자기 효능감 : 특정한 과제를 수행할 수 있다는 자기 능력에 관한 믿음. 실패 경험이 쌓이고 현재 상황을 변화시킬 수 없다는 경험이 누적될 때마다 무기력은 학습되고 인간의 행동을 지배하게 된다.그러나 희망적인 것은 비관을 학습 할 수 있듯이 낙관도 학습된다는 것이다. 동기부여를 받으려면 초반의 성공이 중요하다.[데이브 램지는 고객들에게 먼저 부채 목록을 작성하게 한다. 적은 금액 부터 순서대로 적으라고 한다. 이자에 상관 없이 적은 금액부터 해결하라고 말한다.]작은 성공을 통하여 기대를 낳자. 장애물은 포기하라는 뜻이 아닙니다. 뭔가 어려운 것은 그것을 극복했을 때 나를..
2018.01.04 -
선형대수 1강~3강
음... 사실 머 엄청나게 논리적으로 할 것은 아니고.... 그냥 강좌 듣고 노트필기 끄적이면서.. 수업 내용 중 모르는 거 있으면 더 보충하고 그럴려 합니다.ㅎㅎ 이러다 실력이 점점 좋아지면 발전이 있지 않겠습니까..ㅎㅎ https://www.youtube.com/playlist?list=PLSN_PltQeOyjDGSghAf92VhdMBeaLZWR3 # Linearity 하기 위해선 2가지 만족해야함 1) superposition 2) homegeniety # 항상 원점을 지날 때만 가능하다고 하네요# 변화량에 대해서는 선형성을 따질 수 있답니다. # 미분과 적분에서도 가능하고 Matrix 에서도 가능하다고 하네요.# 그리고 선형대수학에서는 matrix를 (a,b,c) 이렇게 쓰는 것이 아니라 Tran..
2018.01.04 -
선형대수학을 다시 공부하기
예전에는 논문을 볼 일도 없고 학교 수업에만 쫓아가다 보니 선형대수학을 학교에서 배웠지만 많이 활용이 안되서 그런지 머릿속에서는 점점 잊혀져 가더라구요. 논문을 읽거나 다른 사람들의 논문 리뷰를 보면서 수학적인 지식을 설명해주긴 하지만, 그걸로는 먼가 너무 부분적으로 아는 것 같아서 이번 기회에 다시 공부해서 별거 없는 내용지만 흔적을 남기려고 합니다. 여러 사람들이 추천해주는 걸 모아봤습니다! 추천 사이트 2013.한양대교수님 이상화교수님 강의https://www.youtube.com/playlist?list=PLSN_PltQeOyjDGSghAf92VhdMBeaLZWR3 http://www.bigbook.or.kr/bbs/bbs/board.php?bo_table=bo16&wr_id=2 영어강좌도 있습니..
2018.01.04 -
지도학습_k-최근접 이웃 , 선형모델(로지스틱,svm) , 나이브 베이즈 분류기
기준 scikit-learn package 나는 멀 해도 안먹히지만 Matplotlib에서한글 깨질 때 유용한 사이트 --> https://ansuchan.com/matplotlib-with-korean/ # 지도학습 # 입력과 출력 샘플이 있는 것# 분류 / 회귀# 분류 - 이진 분류, 다중 분류 # 회귀 - 부동수소점수(실수)를 예측 # k-최근접 이웃# 가장 간단한 머신러닝 # 장단점# 2개의 중요한 매개변수 # 1. 데이터 포인트 사의의 거리를 재는 방법# 2. 이웃의 수 # 다양한 거리를 재는 방식이 나와 있음# 장점 : 1. 이해하기 쉬운 모델 # 단점 : 전처리가 중요하다. , 예측이 느리고 특성 처리 부족 # 이러한 단점 해결 모델 -> 선형 모델 ## 선형 모델 # 모델 파라미터 w 와 ..
2018.01.03 -
문제와 데이터 이해하기
머시러닝 과정에서 가장 중요한 것은 데이터 이해하고 그 데이터가 해결 해야 할 문제와 어떤 관련이 있는지 이해하는 일이다. 왜냐하면 알고리즘마다 잘 들어맞는 데이터나 문제의 종류가 다르기 때문이다. 최소한 마음에 담아둘 사항1. 어떤 질문에 대한 답을 원하는가? 가지고 있는 데이터가 원하는 답을 줄 수 있는가? 2. 내 질문을 머신러닝 문제로 가잘 잘 기술하는 방법은 무엇인가? 3. 문제를 풀기에 충분한 데이터가 있는가? 4. 내가 추출한 데이터의 특성은 무엇이며 좋은 예측을 만들어 낼 수 있는 것인가? 5. 머신러닝 어플리케이션 성과를 어떻게 측정할 것인가 6. 머신러닝 솔루션이 다른 연구나 제품과 어떻게 협력 할 수 있겠는가? ## 항상 머린속에 큰 그림을 생각하자 # Python필수 libraryn..
2018.01.03