질문 : 왜 w * w.T 가 (1/α)*I 랑 똑같은 것인지 모르겠습니다.
배경설명
(1) 현재 확률분포의 패러미터들이 확률변수이고, w는 이 '확률변수 패러미터를 담고 있는 벡터'들 입니다. 그렇지만 w가 벡터라는 사실에는 변함이 없기 때문에 w * w.T 를 하면 스칼라값이 나온다고 생각할 수 있습니다.
(2) 벡터 w의 평균은 0벡터이기 때문에 E ( (w - 0) * (w - 0).T) = E(w * w.T) 즉 '편차 제곱의 평균' 계산식이므로 이는 벡터 w에 있는 value들의 분산이라는 스칼라를 구하는 것입니다.
(3) 그런데 왜 교수님 강의에서는 두 벡터의 내적( = w * w.T)가 또 다른 벡터가 나오는 것인지요?
comment