본문 바로가기

ML,DL/Data processing

TF-IDF

단어의 빈도(Term Ferquency)와 역문서 빈도(Inverse Document Frequency)를 사용해 DTM(Document Term Matrix : 하나의 문서 내에 존재하는 단어의 빈도수를 행렬로 나타낸 것)내의 단어들마다 중요한 정도를 가중치로 주는 방식

TF(d,t)

특정 문서 d에서 특정 단어 t의 등장 횟수

DF(t)

특정 단어 t가 등장한 문서의 수

IDF(t)

DF(t)에 반비례하는 수

$IDF(t) = log(\frac{n}{1+DF(t)})$

 

DF(t)에 대한 inverse를 계산하기 위해 고안된 식으로, 단순한 역수 $\frac{n}{DF(t)}$를 사용하게 되면 n이 크고 DF(t)값에 따라 IDF(t)값에 대한 편차가 커지게 되므로, $log$를 씌워준다

좌(log) / 우(그대로)

위의 사진의 'word1'과 같이, 자주 등장하지 않는 단어에 대해 $log$를 씌우지 않는 경우에 너무 큰 가중치가 부여되게 됨

TF-IDF

각 단어에 대해 계산된 TF값과 IDF값의 곱

$TF(t) * IDF(t)$

'ML,DL > Data processing' 카테고리의 다른 글

Word2Vec  (0) 2024.06.24