로그인 바로가기 하위 메뉴 바로가기 본문 바로가기

인공지능 및 기계학습 개론Ⅰ

임시 이미지 KAIST 산업및시스템공학과 문일철 KOOC (KAIST Open Online Course)
http://www.edwith.org/machinelearning1_17/forum/40196
좋아요 3563 수강생 17081

지난 시간 (https://kooc.kaist.ac.kr/machinelearning1_17/forum/39523)에는 KL 및 Jensen Shannon (JS) divergence에 대해 알아보았습니다.

간략히 정리하면, KL divergence minimization은 MLE와 동치가 되고,

JS divergence minimization은 수행할 수 있는 maximization/minimization 방법이 존재하지 않으며,

JS divergence minimization을 수행하기 위해 GAN으로 minimax optimization을 수행해야 한다는 것이었습니다.


그럼 KL과 JS 외에 다른 어떤 divergence가 존재할까요?

D_{f}(P\Vert Q)=\int_{X}q(x)f\Big(\frac{p(x)}{q(x)}\Big)dx  Df(PQ)=Xq(x)f(q(x) p(x))dx 로 정의된 f-divergence는 추가적인 divergence family를 구성할 수 있습니다.

또한, f-divergence는 기존에 널리 알려진 divergence들도 포함하는 것으로 알려졌는데요, 예를 들면  f(u)=u\log{u}  f(u)=ulogu 로 정의할 경우, f-divergence는 KL divergence가 됩니다. 또한,  f(u)=-\log{u}  f(u)=logu 이면 reverse KL divergence가,  f(u)=-(u+1)\log{\frac{1+u}{2}}+u\log{u}  f(u)=(u+1)log2 1+u+ulogu 이면 Jensen Shannon divergence가 됩니다.


그런데 문제는, f-divergence minimization은 f가 특수한 경우가 아니고서는 불가능하다는 것입니다. 그렇기 때문에 https://arxiv.org/pdf/1606.00709.pdf 와 같은 문헌에서는 variational inference (인공지능 심화 과정에서 배우게 됩니다) 방법론을 이용해서 f-divergence의 Evidence Lower BOund (ELBO)를 구한 후, ELBO를 maximize하여 parameter estimation을 진행합니다.


감사합니다