TF-IDF (Sade Anlatım)

Bir terimin doküman içerisindeki önemini gösteren istatistiki yöntemle hesaplanan ağırlık faktörüdür.

Kaynak :
https://medium.com/algorithms-data-structures/tf-idf-term-frequency-inverse-document-frequency-53feb22a17c6

Örneğin Yılmaz Erdoğan’ın her senaryosunun ismi bir döküman olacak şekilde liste yapalım. İçinde:

Bir Demet Tiyatro
Bana Bir Şeyhler Oluyor
Sen Hiç Ateş Böceği Gördün mü
Vizontele
Organize İşler

olsun. 5 farklı dökümanımız var. Bu metin içerisinde bazı terimlerin tf-idf değerini hesaplayalım.

İlk terimimiz “Bir Demet Tiyatro” dökümanındaki: Demet

TF = Demet Kelimesinin İlgili Dökümanda Geçme Sayısı / Bir Demet Tiyatro Kelime Sayısı

TF = 1 / 3 = 0.33

IDF = log(Toplam Doküman Sayısı / Demet Kelimesinin Geçtiği Doküman Sayısı)

IDF = log(5/1) = 0.698

TF-IDF = TF*IDF = 0.33*0.698 = 0.23

Devam edelim.

İkinci terimimiz “Bir Demet Tiyatro” dökümanındaki: Bir

TF = Bir Kelimesinin İlgili Dökümanda Geçme Sayısı / Bir Demet Tiyatro Kelime Sayısı

TF = 1/3 = 0.33

IDF = log(Toplam Doküman Sayısı / Bir Kelimesinin Geçtiği Doküman Sayısı)

IDF = log(5/2) = 0.397

TF-IDF = TF*IDF = 0.33*0.397 = 0.131

Gördüğünüz gibi bir terim diğer dokümanlarda ne kadar çok olursa TF-IDF değeri düşüyor. Aynı şekilde bir terim kendi dokümanında ne kadar çok olursa TF-IDF değeri artıyor. Örneğin:

Bir Demet Tiyatro yerine Bir Demet Tiyatro Demet gibi bir isim olsaydı, Demet kelimesi 2 kere geçecekti ve TF değeri 1/3=0.33 yerine 2/4=0.5 olacaktı artacaktı.

Şimdi gelin bu TF-IDF olayını bir masalla anlatalım. 🙂

You may also like...

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir