개발/NLP
Bag of Words
컴퓨터는 자연어를 이해하지 못하기 때문에 컴퓨터가 알 수 있게끔 해줘야 합니다. 가장 간단한 방법은 문장을 쪼개서 컴퓨터한테 인식시키는 것입니다. 문장을 쪼개서 해당하는 칼럼의 값에 카운트를 올려주는 방식입니다. 즉 문장 속 단어의 빈도수를 체크해줍니다. BoW 단점: 단어의 빈도수만 체크하기 때문에 문장의 의미를 제대로 이해하기 힘들다. ex_ "좋다가 말았네" 문장의 재구성이 불가능하다 Bow를 만드는 방법 "오늘도 나는 축구를 한다 나는 축구를 좋아해" "지금 축구를 하고 싶어" 라는 문장들이 있을 때 이 문장을 컴퓨터가 이해하게끔 간단한 방법을 사용해 보겠습니다. 1. 띄어쓰기 단위 단점: 좋아해, 좋아함, 좋아 등을 구분 못해서 사용자 사전이 엄청 커집니다. 오늘도 나는 축구를 한다 좋아해 지금..