● 시계열 분석
시계열 분석은 일정 시간 간격으로 기록된 자료들의 특성을 파악하고 미래를 예측하는 분석 방법이다.
● 자기 상관성
이웃하는 자료들 간의 상관 관계
1. 자기 상관 계수 (ACF)
시간의 흐름에 따른 자기 상관 관계의 변화를 나타낸 지표
= 시차 l 에 따른 시점 t 의 값과 t+l 의 값 간의 상관 계수 의 변화를 나타낸 지표
시계열 자료가 시간에 의존하지 않고 무작위성을 띠는지 확인할 때 사용한다.
2. 부분 자기 상관 계수 (PACF)
다른 시점의 확률변수 영향력을 통제한 상관관계를 나타낸 지표
= 시점 t 와 t+l 사이의 l-1개 자료의 영향을 제거한 상관 계수
● 시계열 자료의 정상성 조건
시계열의 정상성은 시계열의 통계적 특성이 시간에 대해 일정하다는 것을 의미하며, 정상성은 시계열 분석을 수행하기 위한 기본 요건에 해당한다.
1. 일정한 평균
모든 시점에 대하여 평균이 일정해야 한다.
그렇지 않을 경우에는 차분을 통해 정상화할 수 있다.
(차분 방법:현 시점의 자료 값에서 전 시점의 자료 값 빼기)
2. 일정한 분산
모든 시점에 대하여 분산이 일정해야 한다.
그렇지 않을 경우에는 변환을 통해 정상화할 수 있다.
(변환 방법의 예: 지수, 로그 취하기)
3. 공분산이 시차에만 의존
공분산은 시차에만 의존하고, 특정 시점에 의존하지 않아야 한다.
t 시점과 t+s 시점의 공분산 , t 시점과 t-s 시점의 공분산 은 서로 같다.
● 시계열 자료의 분석 기법
1. 이동 평균법 (Moving Average)
시계열 데이터에서 일정한 기간별로 자료를 묶어서 평균을 구하는 방법
2. 지수 평활법 (Exponential Smoothing)
최근의 데이터일수록 큰 가중치를 부여하여 평균을 계산한다.
● 시계열 자료의 분석 모형
1. 자기 회귀 모형 (AR: Autoregressive)
이전 시점들의 자료값들을 선형 결합한 모형
2. 이동 평균 (MA: Moving Average)
이전 시점들의 백색잡음들을 선형 결합한 모형
(백색 잡음: 현재의 시점과 이전 시점의 상관관계가 존재하지 않는 시계열 자료)
3. 자기 회귀 누적 이동 평균 모형
(ARIMA: Auto regressive Integrated Moving Average)
정상성이 확보되지 않았더라도 정상화하여 분석을 시도하는 일반화 모형
ARIMA (p, d, q) : 이상적인 p, d, q 변수를 찾아야 한다.
AR 모형의 차수: p
정상화를 위해 필요한 차분 횟수: d
MA 모형의 차수: q
p=0 이면 IMA(d,q) 모형, d=0이면 ARMA(p,q) 모형, q=0 이면 ARI(p,d) 모형
● 분해 시계열
분해 시계열의 특정 요인만 분리해서 분석하는 경우를 말한다.
○ 추세 요인
장기간 일정한 방향으로 상승, 하락하는 경향을 가지는 요인
○ 순환 요인
장기적 차원에서 상승과 하락이 반복되는 변동의 요인
○ 계절 요인
고정된 주기로 상승과 하락이 반복되는 규칙적 변동의 요인
○ 불규칙 요인
어떠한 규칙성도 없이 우연히 발생하는 변동의 요인
'데이터 사이언스 기초' 카테고리의 다른 글
Leet-Code pandas 버전 리뷰 (1) | 2024.11.08 |
---|---|
SQL Window Function (0) | 2024.11.04 |
거리 측도 (0) | 2024.10.31 |
ML 분류 모형 평가 지표 (0) | 2024.10.30 |
SQL 유용한 코드 (0) | 2024.10.30 |