DDIM
이번 포스팅은 Diffusion model의 한 종류인 DDIM에 대해 간략하게 정리했습니다.
DDIM이란?
DDIM(Denoising Diffusion Implicit Model)[1]은 Diffusion model의 한 종류로, 이전 포스팅에서 언급했던 DDPM과 학습 과정은 동일하지만 더 빠른 학습 속도를 보이는 모델입니다. DDIM의 학습 과정은 아래 식[2]으로 정리할 수 있으며, DDPM과의 차이점은 다음과 같습니다.
<DDPM과의 차이점>
1. stochastic parameter인 sigma를 추가
2. input으로 이전 이미지(x_t)와 원본 이미지(x_0)가 들어감
3. 평가지표로 KID(Kdernel Inception Distance) 사용
KID?
KID(Kernel Inception Distance)[3]는 FID(Frechet Inception Distance)[4]에서 파생된 것으로, 생성모델의 성능평가지표 입니다. FID는 실제 이미지에 대한 feature와 예측 이미지에 대한 feature 간 유사도를 구하는 것이고, KID는 실제 이미지와 가짜 이미지, 각 세트 간의 유사도를 구합니다. FID는 한 epoch가 끝난 후 연산이 이루어지고, KID는 kernel이 움직일 때 마다 연산이 이루어집니다. 두 평가지표 모두 식을 통해 계산이 가능하며, 숫자가 작을수록 실제와 예측의 차이가 거의 없다는 의미이기 때문에 모델의 성능이 좋은 것입니다.
참고문헌
[1] Denoising Diffusion Impolicit Models
[2] DDIM 리뷰
[3] KID score
[4] FID score
[5] FID, KID 요약