[Chapter 1] KL, JS divergence 외에 어떤 divergence가 존재할까요? 인공지능 및 기계학습 개론Ⅰ : edwith

인공지능 및 기계학습 개론Ⅰ

http://www.edwith.org/machinelearning1_17/forum/40196

김동준 튜터 2020.12.22

지난 시간 (https://kooc.kaist.ac.kr/machinelearning1_17/forum/39523)에는 KL 및 Jensen Shannon (JS) divergence에 대해 알아보았습니다.

간략히 정리하면, KL divergence minimization은 MLE와 동치가 되고,

JS divergence minimization은 수행할 수 있는 maximization/minimization 방법이 존재하지 않으며,

JS divergence minimization을 수행하기 위해 GAN으로 minimax optimization을 수행해야 한다는 것이었습니다.

그럼 KL과 JS 외에 다른 어떤 divergence가 존재할까요?

$D_{f}(P\Vert Q)=\int_{X}q(x)f\Big(\frac{p(x)}{q(x)}\Big)dx$ 로 정의된 f-divergence는 추가적인 divergence family를 구성할 수 있습니다.

또한, f-divergence는 기존에 널리 알려진 divergence들도 포함하는 것으로 알려졌는데요, 예를 들면 $f(u)=u\log{u}$ 로 정의할 경우, f-divergence는 KL divergence가 됩니다. 또한, $f(u)=-\log{u}$ 이면 reverse KL divergence가, $f(u)=-(u+1)\log{\frac{1+u}{2}}+u\log{u}$ 이면 Jensen Shannon divergence가 됩니다.

그런데 문제는, f-divergence minimization은 f가 특수한 경우가 아니고서는 불가능하다는 것입니다. 그렇기 때문에 https://arxiv.org/pdf/1606.00709.pdf 와 같은 문헌에서는 variational inference (인공지능 심화 과정에서 배우게 됩니다) 방법론을 이용해서 f-divergence의 Evidence Lower BOund (ELBO)를 구한 후, ELBO를 maximize하여 parameter estimation을 진행합니다.

감사합니다

인공지능 및 기계학습 개론Ⅰ

comment