시계열 자료

2018. 3. 20. 22:15ML(머신러닝)/Time Series

시간의 흐름에 따라 관측된 자료

시간 간격 - 연도별, 계절별 , 월별, 일별, 시별 ,분별  --- 주로 월별을 많이 사용한다.



시계열 자료의 표현


Z(t) : t = 1,2, ... 또는 Z(1) , Z(2) ...


시계열 자료의 특징

1. 시간의 영향을 받는다.

2. 시계열 자료는 서로 독립이 아니다 -> 새로운 분석법 필요하다


가정 : 시계열 자료의 과거 패턴이 미래에도 지속적으로 유지된다는 가정하에 미래에 대한 예측 시행을 한다.


고려해야 할 성분


불규칙 성분, 추세 성분, 계절 성분  혼합해서 많이 나온다.


추세 성분이 2개로 이루어진 경우가 있는데 그럴 경우 과거 추세에 대한 데이터를 버리는 형식으로 볼 수 있고 2개를 안고 볼 수도 있다.


확률 과정(Random Process) 

: 확률법칙에 의해 생성되는 일련의 통계적인 현상


확률 변수들의 모임 


시계열 모형 : 확률과정을 설명하는 모임 여기서 집합 T는 시간의 집합이다.


# 정상성 : 시계열의 확률적인 성질들이 시간의 흐름에 따른 불변을 의미 (정상성의 경우 관대하게 보는 편이 좋다)

1. 뚜렷한 추세가 없다. 즉 시계열의 평균이 시간축에 평행한다(평균을 마니 지나간다)

2. 시계열 진폭이 시간의 흐름에 따라 일정하다. 


# 백색잡음과정 

 들이 서로 독립이고 평균 0, 분산  을 갖는 확률변수라고 할 때,  

백색잡음 과정은 정상 확률 과정이다.


# 절편이 없는 확률보행과정 : 비정상과정



# 절편이 있는 확률보행과정 : 비정상 과정

변하는 이유 모르면 -> 확률적 추세 -> 차분하는 것이 좋음(대신 분산을 더 얻어서 정확도가 떨어짐)

원일을 알면 -> 추세


# 자기상관계수 (AutoCorrelation Function : ACF) 

일반적으로 시계열 자료의 특성 -> 과거 및 미래의 상태와 밀접한 관계를 가진다. 

ACF 빨리 떨어지면 -> 정상시계열

ACF 늦게 떨어지면 -> 데이터 부족문제나 뭔가가 문제가 있는 것임


그래서


ARIMA -> 산점도, ACF 체크 -> 절편 X , 절편 O , 추세O 있는지를 판단



728x90