2023-11-30,   김혜원

본 포스팅은 GTN 논문에서 사용된 시계열 벤치마크 데이터세트 중 웨이퍼(Wafer) 데이터세트에 대해 공유하기 위해 작성한 글입니다.


데이터세트 구성 목적

웨이퍼 데이터세트는 학습 데이터와 검증 데이터로 구성되어 있습니다. 웨이퍼 데이터는 반도체 마이크로 전자공학 제조와 관련이 있습니다. 반도체 제조용 실리콘 웨이퍼 처리 중 다양한 센서에서 기록된 인라인 공정 제어 측정값 모음이 웨이퍼 데이터세트를 구성합니다. 웨이퍼 데이터베이스의 각 데이터 세트에는 하나의 도구로 하나의 웨이퍼를 처리하는 동안 하나의 센서에서 기록된 측정값이 포함됩니다. 정상과 비정상 한 개씩, 총 두 개의 클래스가 있습니다.

 

데이터세트 크기

웨이퍼 데이터세트는 학습 데이터가 1000개, 검증 데이터가 6164개로 구성되어 있습니다. 아래 학습 데이터 예시를 보면 1개의 데이터는 100*96개의 값과, 정상(1)과 비정상(-1)을 나타내는 컬럼 1개로 구성되어 있습니다.

wafer_example

 

GTN 모델에서의 활용

GTN 모델은 시계열 데이터의 최대 길이와 채널 수를 입력으로 받아서, 설정한 임계값을 기준으로 데이터를 분류합니다. 총 13개의 벤치마크 데이터세트가 있으며, 웨이퍼 데이터세트는 정상/비정상을, WalkvsRun 데이터세트는 걷기/뛰기를, ECG(심전도 데이터세트)는 질병유무 등 다양한 데이터세트를 분류하고 있습니다.

GTN_benchmark_datasets


참고

[1] 데이터세트 다운로드

[2] GTN 논문

업데이트: