인공지능 및 기계학습 개론Ⅰ > Generative Model의 Performance Metric끼리 어떤 관계가 있을까요? - Part 1 Precision-Recall Trade-Off : edwith

김동준 튜터 2023.03.20

안녕하세요, 조교입니다.

일단 CLIP score를 알아보기 전에 여태까지 소개드린 performance metric끼리의 관계를 설명드릴 필요가 있겠습니다.

오늘은 Precision & Recall의 trade-off관계에 대하여 설명드리도록 하고, 다음 시간에는 FID & IS의 trade-off에 대하여 설명드리도록 하겠습니다.

Precision은 생성한 데이터 중에 실제같은 데이터가 포함될 확률을,

Recall은 실제 데이터 중에 생성한 데이터가 포함될 확률을 이야기합니다.

우리는 GAN이 sample이 퀄리티는 좋은데 다양하진 않다고 알고 있습니다.

이것을 metric으로 이야기하자면 precision은 좋은데 recall은 좋지 않다고 이야기할 수 있겠습니다.

반면, VAE는 sample 퀄리티는 안좋은데 (blurry) 생성되는 샘플은 굉장히 다양하다고 알고 있습니다.

이것은 반대로 precision은 떨어지는데에 반해 recall은 높다고 이야기할 수 있겠습니다.

즉, 종합하자면 precision과 recall은 sample exploitation & exploration을 재는 지표로 둘 다 좋은 값이라면 좋은 모델이라고 할 수 있습니다.

Diffusion model은 둘 다 어느 정도 좋기 때문에 generative model계에서 선풍적인 인기를 끌고 있는 것입니다.

다만, ImageNet 256x256 validation data에서 쟀을 때 precision은 0.75, recall은 0.66이 나오기 때문에 precision과 recall이 이것보다 높다는 것은 training data에 overfit되어 있다고 이야기할 수도 있겠습니다.

최근의 Generative model들은 precision이 0.8, recall은 0.5~6 근처에서 나오기 때문에 생성된 샘플의 퀄리티를 측정하는 metric으로 precision보다 FID 혹은 sFID 같은 지표가 사용되는 것이 더 바람직합니다.

다만, 아직 recall이 0.66을 달성하진 못하고 있는 상황이라, 일단 recall은 높으면 높을수록 좋다고 받아들일 수 있겠습니다.

감사합니다

인공지능 및 기계학습 개론Ⅰ

comment