반응형
1. DTM (Document-Term Matrix)
각 문서에 대한 BoW 표현 방법을 그대로 갖고와서, 서로 다른 문서들의 BoW들을 결합한 표현 방법인 문서 단어 행렬입니다.
2. TF (Term Frequency)
특정 문서에서의 특정 단어 t의 등장 횟수입니다.
3. DF (Documet Frequency)
전체 문서에서 해당 단어가 포함된 문서가 몇번 나왔는지를 체크합니다.
해당 단어가 나타난 문서의 수/ 전체 문서의 수
4. IDF (Inverse Document Frequency)
DF에 역수를 취해주는 작업입니다.
값에 로그를 취해 수가 많이 커지는 것을 방지하고, 분모에 1을 더해 분모가 0이되는 것을 방지합니다.
공식은 아래와 같습니다.
$$log(\frac{n}{1+df(x)})$$
5. TF-IDF(Term Frequency-Inverse Document Frequency)
단어의 빈도와 역 문서 빈도(문서의 빈도에 특정 식을 취함)를 사용하여 단어들마다 중요한 정도를 가중치로 주는 방법입니다.
사용 방법은 우선 DTM을 만든 후, TF-IDF 가중치를 부여합니다.
TF-IDF는 문서 유사도를 찾는데에 유용합니다.
... 추후에 여유가 되면 더 자세히 정리하겠습니다.
반응형
'개발 > NLP' 카테고리의 다른 글
Transformer (0) | 2021.04.25 |
---|---|
Bag of Words (0) | 2021.03.19 |
자연어 평가 지표 (0) | 2021.03.19 |