2023-10-31,   Gun-ha, KANG

이번 포스팅에서는 정상성 가설검정 방법 중 하나인 KPSS Test를 공유해보려고 합니다.

개요

배경

KPSS(Kwiatkowski-Phillips-Schmidt-Shin) 정상성 가설검정은 시계열 데이터의 정상성을 평가하는 중요한 통계적 방법 중 하나입니다. 정상성은 데이터의 통계적 특성이 시간에 따라 변하지 않는 것을 의미하며, 이는 미래 시점의 데이터를 예측하는 데 있어서 과거의 데이터를 통해 예측이 용이함을 의미합니다.

KPSS Test

정상성 평가에 대한 전체적인 내용

Screenshot_2

확률과정 모형의 구성

확률과정이란, 확률 공간에서 시간의 진행에 의해 정의되는 모든 확률변수들의 모임을 의미합니다. 시계열 데이터라는 개념이 확률과정의 표본이라고 생각하면 될 것 같습니다.

해당 논문(1992’)에서는 주어진 시계열 데이터를 다음과 같이 3가지 구성요소(결정론적 추세와 임의보행, 정상 오차항)로 설명될 수 있다는 가정하에 기반합니다.

Screenshot_3

임의보행 모델

사전적 정의는 임의 방향으로 향하는 연속적 걸음을 의미합니다. 이는 예측 불가능한 정상성을 가지지않는 시계열을 의미합니다. 백색잡음과의 차이는 직전 관찰값에 의존한다는 점으로 볼 수 있습니다.

아래의 식을 통해 백색잡음이 i.i.d를 따르면 직전값에 의존하나, 시차에 따른 상관성이 변하지 않음을 나타냅니다. (없다는 게 아닌, 일정함)

Screenshot_4

귀무가설과 대립가설 설정

  • 귀무가설: 주어진 데이터가 정상 시계열이다.
  • 대립가설: 주어진 데이터가 비정상 시계열이다.

Screenshot_5

검정 통계량

기본적으로 KPSS 검정에서는 귀무가설로 정상 시계열 가정하에, 시계열 데이터를 미리 설정한 추세 모형에 회귀 분석하여 추정한 추세를 제거합니다. 그렇게 남은 잔차를 St로 표현하며, 이 잔차를 이용하여 정상성 검정 통계량을 계산합니다.

잔차는 일정한 분산을 가집니다. 또한, 이 분산이 상수인 것은 정상성의 특징 중 하나입니다. 따라서, 분산이 시계열 내에서 일정하지않고 시간에 따라 변화하면 이는 정상이 아니라는말을 의미합니다. (잔차의 변동성) 물론 평균 또한 0이여야 하나, 0이 아니라도 시계열은 정상성을 만족하기에 제외합니다.

데이터가 평균 주변으로 어떻게 퍼져있는지가 분산의 정의인데, 잔차의 분산 또한 이 차이가 얼마나 퍼저있는가로 해석가능합니다.

Screenshot_6

참고 논문


Contact Author. KangGunha Email. zxcvbnm9931@epozen.com

업데이트: