개발/NLP
TF-IDF
1. DTM (Document-Term Matrix) 각 문서에 대한 BoW 표현 방법을 그대로 갖고와서, 서로 다른 문서들의 BoW들을 결합한 표현 방법인 문서 단어 행렬입니다. 2. TF (Term Frequency) 특정 문서에서의 특정 단어 t의 등장 횟수입니다. 3. DF (Documet Frequency) 전체 문서에서 해당 단어가 포함된 문서가 몇번 나왔는지를 체크합니다. 해당 단어가 나타난 문서의 수/ 전체 문서의 수 4. IDF (Inverse Document Frequency) DF에 역수를 취해주는 작업입니다. 값에 로그를 취해 수가 많이 커지는 것을 방지하고, 분모에 1을 더해 분모가 0이되는 것을 방지합니다. 공식은 아래와 같습니다. $$log(\frac{n}{1+df(x)})$$..