Kaggle 올림픽 데이터를 활용한 EDA 1번째
·
분석 R/EDA
2018-11-05 TEST2-Solution html이나 rmd가 필요하다면 댓글에 글 남겨주세요. 관련 파일 : athlete_events.csv , noc_regions.csv 필요 패키지 :tidyverse 0. Package library(tidyverse) Problem 1. 데이터 불러오기 Kaggle 120 years of Olympic history: athletes and results에서 압축 파일을 다운 받은 후에 압축을 해제하시오 Kaggle site에 login 후 download 가능. URL : https://www.kaggle.com/heesoo37/120-years-of-olympic-history-athletes-and-results 사용할 데이터 : athlete_ev..
계절형 자기회귀 이동평균모형(SARIMA)
·
ML(머신러닝)/Time Series
보통 SARIMA 형식은 으로 되어 있다. 승법 계절 모형이라고도 한다. sas에서 estimate 설정해 줄 때 형식으로 넣어준다 앞에 있는 ( ) 에는 불규칙 성분을 뒤에 있는 ( )에는 계절 불규칙을 넣어준다. sas output 중에서 autocorrelation check for white noise 부분에서는 자기 상관성을 따지는 부분인데 이 부분에 p-value가 기각을 해야 분석하는 사람들 입장에서는 좋은 것이다. 왜냐하면 상관성이 있어야 분석할 게 있다는 뜻이기 때문이다. 그리고 저번에 말한 만약에 확률적 추세가 있다면 -> adf에서 single mean을 고려해야 하고 차분을 결정한다. 만약에 결정적추세가 있다면 -> regression OR 차분을 해야 한다. 그래서 만약에 ARIM..
ARIMA 모형의 적합
·
ML(머신러닝)/Time Series
모형 적합 절차에서 ARMA 모형 적합 절차라고 하는 것은 ARMA(P, Q)에서 P, Q를 잘 선택해 가장 적절한 모형을 찾는 것이다 앞에서 배운 비정상(계절성 제외)하고 다 처리를 한 후에 ARMA 모형에 FITTING 시키고 모형 진단에서 잔차 분석 후 옳지 않으면 다시 새로운 P, Q에다가 FITTING 시키고 다시 모형진단 하는 것 반복한다. 모형의 식별에서 P,Q 를 간결의 원칙으로 인해 P 안정화 시켜줘야한다 (Log 이용) 분산이 일정해도 그 수준이 변하면 -> 적절한 차분 을 해야한다. 차분을 너무 많이 하면 앞에서 말한 듯이 분산이 너무 커져서 -> 쓸모없는 모형 예측이 나온다. 언제까지 차분을 하나면 -> 차분을 해도 1. 추세가 계절성이 존재한다. 2. SACF가 천천히 감소한다. ..
단위근과 단위근 검정
·
ML(머신러닝)/Time Series
도움이 되셨다면, 광고 한번만 눌러주세요. 블로그 관리에 큰 힘이 됩니다 ^^ 단위근 검정은 MA 모형과는 상관이 없고 AR이 포함된 모형 과 연관이 있다. 이러한 AR 모형이 있으면 AR모형은 정상성조건을 만족시켜야 하는데, 의 모든 근의 절대 값이 1보다 커야 한다. 만약 이 근이 1보다 크지 않은 근이 존재하면 -> 비정상 확률과정 이라고 한다. 만약 이 근중에서 크기가 1인 근이 있으면 그 근을 단위근(unit root) 라고 한다. 단위근의 존재는 그림으로 확인하기가 어렵다 ARIMA(1 ,1, 1,) 와 ARMA(1,1) 를 구별하기 어렵다 -> 그래서 단위근검정을 통해서 검정을 통해 -> 차분을 하여 정상성조건을 만족시켜서 - > 정상성을 만족하는 확률과정으로 바꾼다. -> 단위근 검정 통계..
비정상 자기회귀 이동평균 과정
·
ML(머신러닝)/Time Series
비정상 시계열의 특징시계열의 수준이 시간대에 따라 다름시계열이 추세글 갖음( +, - )시계열이 계절성을 띔시게열의 분산이 시간대에 따라 변함 비정상결정적 추세(deterministic trend)추세가 결정적이고 동시에 영원히 지속된다면, 결정적 추세결정적 추세 갖고 분산 달라지는 형태는 그림으로 판단 가능확률적 추세(stochastic trend)강한 양의 상관관계로 인한 추세가 있는 것 처럼 보임경제, 경영 자료에 추세때문에 비정상 많음확률적 추세의 경우 그림만으로 판단(x) -> SACF 매우 느리게 감소하는 경향이 있다. 비정상 처리 순서분산 일정하게추세, 계절성 불규칙성 처리하기 # 분산이 일정하지 않은 경우-> 일정하게 로그변환 해준다.-> 해석이 어려워지는 단점이 있다. # 수준이 일정하지..
정상 자기회귀 이동평균 과정
·
ML(머신러닝)/Time Series
자기 회귀 과정 AR(P) 를 따르는 Z_t 는 일반적으로 후진작용소 B 를 이용하면 AR(P) 요약가능 아무튼 결론적으로 의 근의 절대값이 1보다 커야한다. 만약 근이 "1" 이라면 차분을 해야한다. # 정상성 가정은 의 근이 절대값이 1보다 커야한다. MA(moving average process) # 가역성 조건 만족하려면 의 근이 절대값이 1보다 커야한다. 시계열 그림을 봐야하지만 그림으로는 AR , MA 를 구별할 수가 없다. -> AIC, BIC SBC 로 판별을 통해 판단한다. ARMA 의 경우 양쪽 AR , MA 의 가역성 정상성을 항상 고려해야한다. 시계열도 양의 상관성 -> 평균으로 천천히 옴음의 상관성 -> 평균을 미친듯이 지나침iid -> 적당히 평균을 지나감 ACF 천천히 -> 1..
시계열 자료
·
ML(머신러닝)/Time Series
시간의 흐름에 따라 관측된 자료시간 간격 - 연도별, 계절별 , 월별, 일별, 시별 ,분별 --- 주로 월별을 많이 사용한다. 시계열 자료의 표현 Z(t) : t = 1,2, ... 또는 Z(1) , Z(2) ... 시계열 자료의 특징1. 시간의 영향을 받는다.2. 시계열 자료는 서로 독립이 아니다 -> 새로운 분석법 필요하다 가정 : 시계열 자료의 과거 패턴이 미래에도 지속적으로 유지된다는 가정하에 미래에 대한 예측 시행을 한다. 고려해야 할 성분 불규칙 성분, 추세 성분, 계절 성분 혼합해서 많이 나온다. 추세 성분이 2개로 이루어진 경우가 있는데 그럴 경우 과거 추세에 대한 데이터를 버리는 형식으로 볼 수 있고 2개를 안고 볼 수도 있다. 확률 과정(Random Process) : 확률법칙에 의해 ..
알고리즘 체인과 파이프라인
·
분석 R
알고리즘 체인과 파이프라인 데이터 변환 과정과 머신러닝을 연결해주는 파이프라인 from sklearn.svm import SVC from sklearn.datasets import load_breast_cancer from sklearn.model_selection import train_test_split from sklearn.preprocessing import MinMaxScaler # 데이터 적재와 분할 cancer = load_breast_cancer() X_train, X_test, y_train, y_test = train_test_split( cancer.data, cancer.target, random_state=0) # 훈련 데이터의 최솟값, 최댓값을 계산합니다 scaler = Min..
모델평가와 성능평가 _미완성
·
ML(머신러닝)/BASIC
도움이 되셨다면, 광고 한번만 눌러주세요. 블로그 관리에 큰 힘이 됩니다 ^^ 지도와 비지도 다양한 머신러닝 알고리즘 살펴봄 -> 모델 평가와 매개변수 선택에 대해 알아보자 비지도 학습은 선택하는 일 정성적인 일 = 정량적이지 않다는 말 지도 학습 위주로 살펴봄 평가를 위해서는 train_test_split = > train / test 모델 생성 => fit test 모델 평가 => score 메서드 score 메서드 -> 정확히 분류된 샘플의 비율을 계산하는 방법 train / test 나누는 이유 -> 새로운 데이터가 얼마나 일반화되어 있는지 측정하기 위해 안정적인 일반화를 위해 -> 교차 검증(cross validation) score R^2 이외에 다른 방법 from sklearn.dataset..
1-8 ~
·
선형대수학/선형대수_유튜브
1-6 ~ 1-7
·
선형대수학/선형대수_유튜브
데이터 표현과 특성 공학
·
ML(머신러닝)/BASIC
ㅇ우리는 이제까지 보통 2차원 실수행 배열로 데인터 포인트 특성 - 연속형 특성 하지만 일반적인 특성의 전형적인 형태는 범주형 특성 또는 이산형 특성 -> 보통 숫자가 아님 범주형 특성과 연속형 특성의 차이 분류와 회귀 차이와 비슷하지만, 출력이 아닌 입력에 대한 점 연속형 - 픽셀 밝기, iris 측정값 범주형 - 제품의 브랜드, 색상, 판매분류 (연속된 값으로 나타나지 않는다) 책과 옷사이에는 중간 값 x , 순서도 x 하지만 데이터가 어떤 형태의 특성으로 구성되어 있는가 보다 -> 어떻게 표현하는지에 따라 머신러닝 성능의 영향을 크게 준다. 지도, 비지도에서는 스케일이 중요하다 함 / 스케일 조정 x -> 측정치가 cm / m 에 따라 차이가 생긴다. 상호작용 이나 다항식을 추가 특성으로 넣는 것도..

AI 도구

AI 도구 사이드 패널

아래 AI 서비스 중 하나를 선택하여 블로그를 보면서 동시에 사용해보세요.

API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다
API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다
API 키를 입력하세요API 키를 저장하려면 저장 버튼을 클릭하세요API 키가 저장되었습니다
URL과 모델을 입력하세요설정을 저장하려면 저장 버튼을 클릭하세요설정이 저장되었습니다