지난 시간 (https://kooc.kaist.ac.kr/machinelearning1_17/forum/39523)에는 KL 및 Jensen Shannon (JS) divergence에 대해 알아보았습니다.
간략히 정리하면, KL divergence minimization은 MLE와 동치가 되고,
JS divergence minimization은 수행할 수 있는 maximization/minimization 방법이 존재하지 않으며,
JS divergence minimization을 수행하기 위해 GAN으로 minimax optimization을 수행해야 한다는 것이었습니다.
그럼 KL과 JS 외에 다른 어떤 divergence가 존재할까요?
D_{f}(P\Vert Q)=\int_{X}q(x)f\Big(\frac{p(x)}{q(x)}\Big)dxDf(P∥Q)=∫Xq(x)f(q(x)p(x))dx 로 정의된 f-divergence는 추가적인 divergence family를 구성할 수 있습니다.
또한, f-divergence는 기존에 널리 알려진 divergence들도 포함하는 것으로 알려졌는데요, 예를 들면 f(u)=u\log{u}f(u)=ulogu 로 정의할 경우, f-divergence는 KL divergence가 됩니다. 또한, f(u)=-\log{u}f(u)=−logu 이면 reverse KL divergence가, f(u)=-(u+1)\log{\frac{1+u}{2}}+u\log{u}f(u)=−(u+1)log21+u+ulogu 이면 Jensen Shannon divergence가 됩니다.
그런데 문제는, f-divergence minimization은 f가 특수한 경우가 아니고서는 불가능하다는 것입니다. 그렇기 때문에 https://arxiv.org/pdf/1606.00709.pdf 와 같은 문헌에서는 variational inference (인공지능 심화 과정에서 배우게 됩니다) 방법론을 이용해서 f-divergence의 Evidence Lower BOund (ELBO)를 구한 후, ELBO를 maximize하여 parameter estimation을 진행합니다.
감사합니다
comment