인공지능 및 기계학습 개론Ⅰ > Generative Model의 Performance Metric에는 Precision&Recall 외에 어떤 것이 있을까요?

김동준 튜터 2023.02.10

안녕하세요, 조교입니다.

다시 과목 조교를 맡게 되어 Generative Model의 추가적인 성능 지표를 알아보는 시간을 가져보도록 하겠습니다.

오늘 살펴볼 metric은 sFID(https://arxiv.org/pdf/2103.03841.pdf 참조)입니다. sFID는 FID의 문제점을 극복하지만 FID와 계산 방식은 유사하게 유지한 metric입니다.

즉, FID처럼(https://kooc.kaist.ac.kr/machinelearning1_17/forum/117849 참조) sFID 또한 training data의 feature를 Gaussian distribution $N(\mu_{data},\Sigma_{data})$ 으로 근사하고 sample의 feature를 Gaussian distribution $N(\mu_{sample},\Sigma_{sample})$ 로 근사하여 Wasserstein distance를 구하는 것이 되겠습니다. 여기서 feature는 pre-trained inception network의 중간 feature를 사용합니다.

다만 FID와 sFID가 다른 점은 어떤 feature를 사용하느냐입니다. FID의 경우, pool_3 layer의 output feature를 사용하지만, sFID의 경우에는 intermediate layer의 feature를 사용한다는 점입니다.

sFID에서는 pool_3 feature 대신 mixed_6 layer의 convolution feature를 사용합니다. mixed_6 layer의 첫 7개의 channel을 사용하고 각 channel의 width와 height는 17이기 때문에, 총 $7 * 17 * 17 = 2023$ dimensional feature가 됩니다. 원 논문에서는 original FID의 feature dimension인 2048과 유사하게 차원을 맞춰주고 싶어서 첫 7개의 channel만을 사용하였다고 이야기 하고 있습니다.

sFID는 convolution output을 feature로 사용하기 때문에 FID보다 sample의 fidelity를 보다 더 고려한 metric이 되겠습니다. 즉, FID에서 뽑는 pool_3 feature는 data를 너무 뭉개논거라 이상한 샘플이 나와도 그럴듯하기만 하다면 FID값이 좋아지는데 반해, sFID는 그것보다는 좀 더 세밀하게 (하지만 반대로 전체적인 품질은 여전히 FID가 더 잘 측정하겠죠..?) 샘플 quality를 측정하는 것이라고 볼 수 있겠습니다.

다음 시간에는 최근에 가장 핫한 metric중 하나인 CLIP score를 살펴보도록 하겠습니다.

감사합니다

인공지능 및 기계학습 개론Ⅰ

comment