이상탐지 데이터셋 - MVTecAD
이번 포스팅에서는 이상탐지용 데이터셋인 MVTecAD을 공유해보려고 합니다.
MVTecAD(MV Tec Anomaly Detection Dataset)
MVTec Software에서 제작한 Unsupervised Learning을 위한 데이터셋입니다.
산업 검사(industrical inspection)에 중점을 둔 이상탐지 방법을 벤치마킹하기 위한 데이터셋으로, 20’s 개재된 Anomaly Detection 분야의 이상탐지 논문들은 해당 데이터셋을 입력 데이터로 사용하고 있습니다.
Category(=Class)
5354개의 고해상도 생산제품 이미지 데이터입니다.
각 범주는 “정상과 다양한 종류의 결함이 있는 이미지를 포함”하며,
범주는 총 15개로, 5가지의 Texture와 10가지의 객체로 구성되어 있습니다.
범주별 이상 유형도 다양하며, 이미지의 크기는 700~1024 사이에 있습니다.
학습에는 결함이 없는 정상 이미지만 포함되며, 테스트 데이터는 다양한 유형의 결함이 포함된 이미지와 정상 데이터를 포함하여 구성됩니다.
데이터 확인
실제 산업 검사에서 발생할 수 있는 현실적인 결함 유형 데이터로,
이미지는 고도의 제어된 조명 조건에서 획득된 데이터입니다.
단, 일부는 변동성 증가를 위해 조명이 의도적으로 변경된 데이터입니다.
15개의 범주 중 일부(metal_nut, hazelnut) 데이터를 확인해보면 아래와 같습니다.
Class : metal_nut 결함 유형 [4가지]
- bent : 25개
- color : 22개
- flip : 23개
- scratch : 23개
Class : hazelnut 결함 유형 [4가지]
- crack : 18개
- cut : 17개
- hole : 18개
- print : 17개
데이터셋 활용
이미지에서 제조 데이터의 결함(ex. 스크래치), 의료 데이터의 종양 등 평소와 다른 양상을 보이는 부분 즉, 발생된 이상 징후를 포착하는 일(이상탐지)을 수행하는 모델의 벤치마킹 데이터셋으로 사용됩니다.
특히 제조 공정에서는 결함 데이터가 적고, 정상 데이터는 많은 경우가 발생합니다. 때문에 정상 데이터로만 학습하는 모델(unsupervised Learning)의 데이터셋으로 적합하다고 생각합니다.
결함 이미지 분류에 적용할 때 평가된 방법의 결과입니다.
아래와 같이, 여러 모델에서 적용 가능합니다.
참고 논문 : MVTecAD