로그인 바로가기 하위 메뉴 바로가기 본문 바로가기

인공지능 및 기계학습 개론 II

임시 이미지 KAIST 산업및시스템공학과 문일철 교수 KOOC (KAIST Open Online Course)
http://www.edwith.org/machinelearning2__17/forum/108892
좋아요 1110 수강생 5459

안녕하세요, 오랜만에 인사드립니다.

최근의 machine learning community중 일부에서는 latent variable model로 random variable이 유한개 존재하는 것을 넘어서 무한개 존재하는 모델링을 하곤 합니다. random variable이 유한개 있는 경우는 여러분들이 잘 아시는 variational autoencoder, generative adversarial network, normalizing flow 등이 있고, random variable이 무한개 있는 경우는 continuous diffusion model이 있습니다.

하지만 이런 발전에도 불구하고 random variable이 무한개 있는 경우에는 이해가 어려운데, 그 이유는 문헌들이 두가지 갈래로 나뉘기 때문입니다: 첫번째 갈래는 너무 쉽게 씌여져서 기존의 유한개 있는 경우와 동일시 하는 경우입니다. 이 경우는 수식을 유도하기 위해 사용되었던 대부분의 detail을 무시하고 서술되었기 때문에 문헌을 이해할 수는 있어도 문헌의 수식을 zero ground로부터 유도하기는 어렵습니다. 두번째 갈래는 너무 어렵게 씌여져서 기존의 유한개 있는 경우만 아는 경우 이해할 수 없는 경우입니다.

그렇기 때문에 오늘은 약간의 probability space에 대한 이야기를 드리고자 합니다. 오늘 말씀드릴 내용은 Kolmogorov 's Extension Theorem (https://en.wikipedia.org/wiki/Kolmogorov_extension_theorem)인데요, 이 내용이 어떤 내용이냐면, 우리에게 만일 무한한 개수의 random variable  \{X_{k}\}_{k=1}^{\infty}  {Xk}k=1 가 주어져 있을 때,  \{X_{k}\}_{k=1}^{K}  {Xk}k=1K 의 probability measure를  \nu_{K}  νK 라고 지칭한다면 어떤 super concept measure인  \nu  ν 가 존재한다는 것입니다. 이  \nu  ν 는 다음의 중요한 사실을 만족합니다:  \nu(X_{1}\in F_{1},...,X_{K}\in F_{K})=\nu_{K}(X_{1}\in F_{1},...,X_{K}\in F_{K})  ν(X1F1,...,XKFK)=νK(X1F1,...,XKFK) .

Kolmogorov's Extension Theorem은 random variable의 개수가 무한대일 때의 joint distribution을 measure-theoretic하게 정의해줍니다. 즉, random variable의 개수가 단 두개일 때,  X, Z  X,Z 에 대한 joint probability distribution는  p(X,Z)  p(X,Z) 로 씁니다. 하지만, random variable의 개수가 무한대일 때는  p(\{X_{k}\}_{k=1}^{\infty})  p({Xk}k=1) 라고 쓸 수 있을까요? 결국 probability distribution도 함수인데, 함수가 무한개의 input을 갖는 것이 가능할까요?

Kolmogorov's Extension Theorem에 의해 정의되었던 (super) measure  \nu  ν 는 이를 가능하게 만듭니다.  \nu  ν 는  K  K 와는 관계 없이 모든  K  K 에 대해 finite-dimensional measure로 reduce 시키면  \nu_{K}  νK 가 되면서  \nu(\{X_{k}\}_{k=1}^{\infty})  ν({Xk}k=1) 를 formally 정의해 주는 하나의 probability measure입니다. 즉, 머신 러닝을 공부하는 우리는  \nu  ν 가 어떻게 형성되었는지보다는 그러한  \nu  ν 가 잘 존재하는 것이 보장되어 있다고만 알아두면 되겠습니다. 이러한  \nu  ν 가 존재하기 때문에 discrete random variable problem에서 아무런 문제 없이 continuous random variable problem으로 문제를 확장할 수 있게 되는 것입니다.