단어의 빈도(Term Ferquency)와 역문서 빈도(Inverse Document Frequency)를 사용해 DTM(Document Term Matrix : 하나의 문서 내에 존재하는 단어의 빈도수를 행렬로 나타낸 것)내의 단어들마다 중요한 정도를 가중치로 주는 방식
TF(d,t)
특정 문서 d에서 특정 단어 t의 등장 횟수
DF(t)
특정 단어 t가 등장한 문서의 수
IDF(t)
DF(t)에 반비례하는 수
$IDF(t) = log(\frac{n}{1+DF(t)})$
DF(t)에 대한 inverse를 계산하기 위해 고안된 식으로, 단순한 역수 $\frac{n}{DF(t)}$를 사용하게 되면 n이 크고 DF(t)값에 따라 IDF(t)값에 대한 편차가 커지게 되므로, $log$를 씌워준다
위의 사진의 'word1'과 같이, 자주 등장하지 않는 단어에 대해 $log$를 씌우지 않는 경우에 너무 큰 가중치가 부여되게 됨
TF-IDF
각 단어에 대해 계산된 TF값과 IDF값의 곱
$TF(t) * IDF(t)$
'ML,DL > Data processing' 카테고리의 다른 글
Word2Vec (0) | 2024.06.24 |
---|