Image Captioning

2021.09.17

Image captioning은 이미지를 입력하여, 이미지를 가장 잘 설명하는 문장을 출력하는 task입니다. Encoder 부분 - pretrained된 모델을 불러와서 poolling과 linear를 제거하여 사용 Decoder 부분 - 스타트토큰이 디코더에 들어가고 - 이전에 출력된 정보와 attention정보(어디를 봐야하는지)를 input으로 넣어서 사용 - RNN은 굉장히 많은 word class를 가진 classification이다 이런 classification을 사용하면 'a'라는 값보다 더 나은 값이여도 이미 앞단계에서 버렸기때문에 아쉬운 상황이 발생한다 그럴 때 사용하는게 Beam search 기술이다 Bean Search는 top 1이아닌 top k개를 골라서 사용한다. 처음 3개의..

Image Captioning

티스토리툴바