인공지능 및 기계학습 개론Ⅰ > Generative Model의 Performance Metric에는 Precision&Recall 외에 어떤 것이 있을까요?

김동준 튜터 2022.02.25

안녕하세요, 조교입니다.

이번 시간에는 Frechet Inception Distance에 대해 살펴보도록 하겠습니다.

지난 시간에 살펴본 NLL은 학습한 모델의 log-likelihood를 test dataset에 대해 계산하여 얻은 performance metric인 반면,

이번 시간에 살펴볼 FID는 training dataset에 대해 계산하여 얻을 수 있는 performance metric입니다.

여러분은 모두 딥러닝을 처음 배울 때 metric은 test dataset에 대해 재는 것이라고 배우셨을텐데 FID는 그렇지 않습니다.

자세히 들어가기에 앞서, FID는 sample performance를 재기 위해 주로 GAN에서 많이 쓰이던 metric이었으나

최근의 Generative model들의 모든 분야 (VAE/Flow/Diffusion/GAN)에서 주요 metric으로 발돋움하게 되었습니다.

FID는 학습한 모델로부터 sample을 5만개 뽑은 후에 그 샘플들을 pretrained inception network에 태워서

가장 마지막 feature값을 얻습니다.

이렇게 얻은 feature를 training dataset을 pretrained network에 태워서 얻은 feature와 비교하여 FID값을 얻는데요,

real data의 feature의 first & second moment를 구하여 real dataset의 Gaussian distribution을 추정하고,

sampled data의 feature의 first & second moment를 구해서 sampled data의 Gaussian distribution을 추정합니다.

두개의 Gaussian distribution의 Wasserstein distance가 FID가 됩니다.

이 FID는 사람이 눈으로 보는 샘플 퀄리티와 아주 유사하게 성능을 측정하는 도구로 많이 사용되어 왔으며,

중간에 Kernel Inception Distance 등의 많은 개선된 성능지표가 나왔지만

여전히 FID는 가장 dominant한 metric으로 사용되고 있습니다.

다음 시간에는 Inception score에 대해 살펴보도록 하겠습니다.

인공지능 및 기계학습 개론Ⅰ