Sosyal Ağlarda Makine Öğrenmesi 14 [ Karar Ağacı Sınıflandırıcıları -1 ]

Karar ağaçlarının hem regresyon hem de sınıflandırma problemlerinde kullanıldığını görmüş ve önceki bölümlerde regresyon için kullanmıştık. Bu bölümde ise sınıflandırma probleminde kullanımına bakacağız. Karar ağacı ile model oluştururken veri setinin özelliklerinden basit kurallar çıkarıp ardından da bu kuralları öğrenerek tahmin eden model oluştururuz.

Özetle karar ağaçlarında temel fikir veri kümesinin gruplara bölerek etiketlemeye dayanır.

Bir örnek verelim. Aşağıdaki gibi bir tablomuz olsun.

Görsel Kaynak:
https://www.e-adys.com/makine_ogrenmesi/decision-tree-karar-agaci-id3-algoritmasi-classification-siniflama/

Peki makine en ayırt edici niteliği nasıl bulacak ? İşte burada karşımıza yeni bir kavram çıkıyor: Entropi

Entropi, verilerdeki belirsizliğin ölçüsüdür. Veriyi bölerek entropiyi en aza indirmemiz gerekir. Bölünmenin iyi olması, tahminin de iyi olması sonucunu getirecektir. En iyi bölünmeyin belirlerken bilgi kazancından faydalanıyoruz.

Kaynak :
https://medium.com/@k.ulgen90/makine-%C3%B6%C4%9Frenimi-b%C3%B6l%C3%BCm-5-karar-a%C4%9Fa%C3%A7lar%C4%B1-c90bd7593010

Entropi ve bilgi kazancı denklemimiz aşağıdaki şekildedir.

Unutma: Eşit olasılıklı durumlara sahip sistemler yüksek belirsizliğe dolayısıyla yüksek entropiye sahiptir.

Unutma: Karar ağaçlarında bölümlenmeye hangi düğümden başlanacağı çok önemlidir.

ID3 Algoritması

Kategorik verilerle çalışan, çok boyutlu veriyi parçalara bölen bir algoritmadır. Oluşturulabilecek bütün ağaç kombinasyonları çok fazladır.

ID3 Algoritmasında öncelikle sınıf niteliğinin entropisi hesaplanıyor ardından özellik vektörlerinin sınıfa bağlı entropileri hesaplanıyor.

Ardından sınıf niteliğinin entropisinden tüm özellik vektörlerinin entropisi çıkarılıyor ve kazanç ölçütü hesaplanıyor. En büyük kazanca sahip özellik vektörü o iterasyonda dallanma düğümü oluyor.

C4.5 Algoritması

Bu algoritmada ise farklı olarak veriler numerik değil kategorik değerlere dönüştürülüyor. En büyük bilgi kazancını sağlayacak eşik değer belirlendikten sonra tüm değerler sıralanıyor ve ikiye bölünüyor. Örneğin elimizde {65, 70, 75, 80, 84, 90, 95, 96} şeklinde alınmış notlar var bunları küçükten büyüğe sıraladık ve ortada kalan 80 ile 84 ün ortalaması olan 82’yi aldık. Artık tüm notları bu 82’yi esas alarak büyük, eşit veya küçük şeklinde sıralıyoruz. Ardından da kazançları hesaplayıp bölme işlemini yapıyoruz.

Twoing Algoritması

Bu algoritmada eğitim kümesi her adımda iki parçaya ayrılarak bölümleme yapılıyor. Her bölünme için uygunluk değeri olarak adlandırılan değerin en yüksek olduğu esas alınır.

Gini Algoritması

Gini Algoritmasında nitelik değerleri iki parçaya ayrılarak bölümleme yapılır. Gini sol ve sağ değerleri hesaplanır. Her bölümlemeden sonra Gini değeri en küçük olan seçilir.

Şimdi modelimizi oluşturalım.

You may also like...

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir