로그인 바로가기 하위 메뉴 바로가기 본문 바로가기

컴퓨터비전, 머신러닝, 딥러닝을 이용한 의료영상분석

임시 이미지 박상현 교수 DGIST
http://www.edwith.org/medical-20200327/forum/119499
좋아요 1304 수강생 4069
안녕하세요. 이번 강의 유익하게 듣고있는 학생입니다.
수준 높은 강의를 이렇게 들을 수 있어서 많이 발전하고있습니다.
강의를 듣다가 해결이 안되는 부분이 있어 질문 올립니다.


CNN 네트워크는 n*h*w 의 feature 출력하고 size가 1*h*w인 global avg pooling이 feature에 적용되어 n*1*1(즉 n개)의 avg pooling을 만듭니다.
만약 2class 분류라면 각각의 class분류에 n개씩의 학습가능한 weight가 곱해집니다. 교수님의 설명은 이 weight의 크기를 조사한 뒤, n개의 feature에 각각 곱해주면 Class activation map을 뽑을 수 있다는 것입니다.
  1. 그런데 여기서 궁금한게 CNN에서 나온 feature는 resolution이 원본보다 매우 작습니다. 그런데 복원된 activation map은 어떻게 원래의 이미지 resolution을 가지는 것인가요?
  2. CNN에서 나온 n*h*w의 feature에 n개의 weight를 각각 곱한다는 표현도 이해가 안됩니다. n개의 채널에 각각 weight를 곱할 수는 있겠는데 8:35에 등장하는 아래 세 그림이 어떻게 나온건지 모르겠습니다.