PatchTST
본 포스팅은 PatchTST 모델에 대한 내용입니다.
PatchTST
- 시계열 분석은 대부분 예측 과정에 많이 사용되지만, 과거의 행동을 진단하는 과정을 포함합니다.
- 한마디로 과거가 미래에 어떤 영향을 주는가? 에 대한 해답을 찾는 것이 목적입니다.
- 시계열 분석이 가장 광범위하게 사용되는 분야는 대표적으로 의학, 경제, 기상이 있습니다.
-
이 분양의 문제들은 시계열 분석의 목적과 일맥상통합니다.
- 논문의 저자는 다변량 시계열 예측과 자기 지도 학습을 위한 트랜스포머 기반 모델의 설계를 제안합니다.
-
이는 두 가지 주요 구성 요소에 기반합니다. 1) 시게열을 하위 시계열 패치로 분할 하여 트랜스포머의 입력 토큰으로 사용 2) 채널 독립성, 즉 각 채널이 동일한 임베딩과 트랜스포머 가중치를 갖는 것
-
모델 구조
- 패치 설계는 세 가지 이점을 갖습니다. 1) 임베딩에서 지역 의미 정보가 유지되며, 동일한 이전 값을 가지더라도 어텐션 맵의 계산과 메모리가 제곱적으로 감소하여 긴 시계열 예측에 효과적입니다. 2) 최근 트랜스포머 기반 모델과 비교했을 때 장기 예측 정확도를 크게 향상할 수 있습니다. 3) 자기 지도 사전 학습에 적용하여 대규모 데이터셋에 대한 지도 학습 성능을 능가합니다.
패치(Patch)
- 시계열 예측은 각 다른 시간 단계의 데이터 사이의 상관 관계를 이해하는 것을 목표로 합니다.
- 그러나 단일 시간 단계는 문장의 단어와 같이 의미를 갖지 않으므로, 분석하는 데 있어 지역적인 의미 정보를 추출하는 것이 중요합니다.
- 이전 연구들은 입력 토큰을 사용하거나 수작업으로 만든 정보로만 사용하지만 저자는 시간 단계를 하위 시계열 패치로 분할함으로써 포과적인 의미 정보를 포착하고 지역성을 강화합니다.
-
즉, 기존 방식은 정보 손실의 한계점이 있기 때문에 데이터를 잘라 하나의 토큰으로 만들어 넣으면 부분적으로 정보를 추출이 가능합니다.
채널 독립성(Channel-independence)
- 다변량은 다중 채널 신호이며, 각 트랜스포머 입력 토큰은 단일 채널 또는 다중 채널의 데이터로 표현 됩니다.
- 채널 혼합(Channel-mixing)은 입력 토큰이 모든 시계열 특징의 벡터를 사용하여 정보를 혼합하기 위해 임베딩 공간에 투영 되는 것을 의미합니다.
- 채널 독립성(Channel-independence)은 각 입력 토큰이 단일 채널에서만 정보를 포함하는 것을 의미 합니다.
시사점
- PatchTST 모델은 시간 및 공간 복잡도를 줄이고, 더 긴 과거 정보를 학습하며, 표현 학습 능력을 보유합니다.
- 패칭을 통해 시간 및 공간 복잡도를 감소시키고 지역적인 의미 정보를 포착하여, 채널 독립성을 통해 다중 채널 시계열 데이터를 처리 합니다.
- 이로 인해 더 나은 예측 성능을 달성할 수 있으며, 다음과 같이 이점을 확증합니다. 1) 시간 복잡도 감소 - Patch를 통해 개선 2) 더 긴 과거 정보 학습 - Patch로 그룹화하여 토큰을 줄이면서 길게 사용 가능 3) 표현 학습 능력 - 기존 트랜스포머 처럼 MLM 방식으로 학습 가능
참고 문서