꿈만 꾸는 학부생 2022. 8. 19. 15:14
728x90

이미지 캡션 생성

이미지를 설명하는 문장을 생성하는 기술 분야로 대표적으로 NIC(Neural Image Caption) 모델을 사용합니다.

 

NIC(Neural Image Caption)

간단히 얘기하면 CNN을 이용해 이미지 특징을 추출한 뒤 RNN을 거쳐 문장을 생성하는 것을 말합니다.

이미지 캡션 생성 문제를 이미지를 번역하는 문제라 볼 수 있습니다.

입력을 이미지(I), 출력을 목표 문장(S = {S1, S2, ..., Sn})이라 하면 가능도(likelihood) P(S | I)를 최대화하는 문제로 정의할 수 있습니다.

이미지 캡션 생성에서는 Encoder가 CNN Encoder를 사용해 CNN 절차를 거치게 만듭니다.

 

공식

NIC 공식

 

728x90