PatchTST

2023-12-29, 최선빈

본 포스팅은 PatchTST 모델에 대한 내용입니다.

PatchTST

시계열 분석은 대부분 예측 과정에 많이 사용되지만, 과거의 행동을 진단하는 과정을 포함합니다.
한마디로 과거가 미래에 어떤 영향을 주는가? 에 대한 해답을 찾는 것이 목적입니다.
시계열 분석이 가장 광범위하게 사용되는 분야는 대표적으로 의학, 경제, 기상이 있습니다.
이 분양의 문제들은 시계열 분석의 목적과 일맥상통합니다.
논문의 저자는 다변량 시계열 예측과 자기 지도 학습을 위한 트랜스포머 기반 모델의 설계를 제안합니다.
이는 두 가지 주요 구성 요소에 기반합니다. 1) 시게열을 하위 시계열 패치로 분할 하여 트랜스포머의 입력 토큰으로 사용 2) 채널 독립성, 즉 각 채널이 동일한 임베딩과 트랜스포머 가중치를 갖는 것
모델 구조
패치 설계는 세 가지 이점을 갖습니다. 1) 임베딩에서 지역 의미 정보가 유지되며, 동일한 이전 값을 가지더라도 어텐션 맵의 계산과 메모리가 제곱적으로 감소하여 긴 시계열 예측에 효과적입니다. 2) 최근 트랜스포머 기반 모델과 비교했을 때 장기 예측 정확도를 크게 향상할 수 있습니다. 3) 자기 지도 사전 학습에 적용하여 대규모 데이터셋에 대한 지도 학습 성능을 능가합니다.

패치(Patch)

시계열 예측은 각 다른 시간 단계의 데이터 사이의 상관 관계를 이해하는 것을 목표로 합니다.
그러나 단일 시간 단계는 문장의 단어와 같이 의미를 갖지 않으므로, 분석하는 데 있어 지역적인 의미 정보를 추출하는 것이 중요합니다.
이전 연구들은 입력 토큰을 사용하거나 수작업으로 만든 정보로만 사용하지만 저자는 시간 단계를 하위 시계열 패치로 분할함으로써 포과적인 의미 정보를 포착하고 지역성을 강화합니다.
즉, 기존 방식은 정보 손실의 한계점이 있기 때문에 데이터를 잘라 하나의 토큰으로 만들어 넣으면 부분적으로 정보를 추출이 가능합니다.

채널 독립성(Channel-independence)

다변량은 다중 채널 신호이며, 각 트랜스포머 입력 토큰은 단일 채널 또는 다중 채널의 데이터로 표현 됩니다.
채널 혼합(Channel-mixing)은 입력 토큰이 모든 시계열 특징의 벡터를 사용하여 정보를 혼합하기 위해 임베딩 공간에 투영 되는 것을 의미합니다.
채널 독립성(Channel-independence)은 각 입력 토큰이 단일 채널에서만 정보를 포함하는 것을 의미 합니다.

시사점

PatchTST 모델은 시간 및 공간 복잡도를 줄이고, 더 긴 과거 정보를 학습하며, 표현 학습 능력을 보유합니다.
패칭을 통해 시간 및 공간 복잡도를 감소시키고 지역적인 의미 정보를 포착하여, 채널 독립성을 통해 다중 채널 시계열 데이터를 처리 합니다.
이로 인해 더 나은 예측 성능을 달성할 수 있으며, 다음과 같이 이점을 확증합니다. 1) 시간 복잡도 감소 - Patch를 통해 개선 2) 더 긴 과거 정보 학습 - Patch로 그룹화하여 토큰을 줄이면서 길게 사용 가능 3) 표현 학습 능력 - 기존 트랜스포머 처럼 MLM 방식으로 학습 가능

참고 문서

패치(Patch)