Sosyal Ağlarda Makine Öğrenmesi 18 [ Clustering – K- Means]

Clustering ( Kümeleme) aslında sınıflandırmaya benziyor fakat temelden bir farkı var. Kümelemede neye baktığınızı ve hangi grupların oluşacağını bilmiyorsunuz.

Burada karşımıza gözetimli değil gözetimsiz öğrenme çıkıyor. Yani herhangi bir ön bilgi verilmiyor. Model ile verisetimiz içerisindeki grupları, örüntüleri keşfediyoruz.

Örnek Kullanım Alanları:

Youtube’da Video İzleyen Kişilerin Ne Tarz Videolar İzlediği

Filmleri kategorilerine göre ayırma

Kümeleme işlemlerinde 2 tür mesafe hesaplama yöntemi var. İlki öklid ikincisi ise Manhattan uzaklığı.

En çok kullanılan Kümeleme algoritmalarından K-Means ile başlayalım.

K-Means Kümeleme Algoritması:

Algoritmadaki ‘k’ harfi küme sayısını belirtir. Önce küme merkezleri belirlenir, merkez dışındaki örnekler mesafelerine göre sınıflandırılır, yapılan sınıflandırmaya göre yeni merkezler belirlenir. Kararlı hale gelene kadar mesafelere göre sınıflandırma ve yeni merkezlerin belirlenmesi adımlarına devam edilir. Bu işlemler yapılırken küme içindeki değerlerin birbirine benzemesi fakat kümelerin birbirinden olabildiğince farklı olmasına çalışılır.

Burada sıklıkla kullanılan bir T-shirt örneği vardır. Görselde de görüldüğü gibi ilk durumda k değerimizi 3 aldık ve T-shirtler 3 gruba ayrıldı. İkinci örnekte ise k değerini 5 aldık ve bu sefer daha da detaylı olarak ayrılma oldu ve t-shirtler 5 gruba ayrıldı.

Süreci aşağıdaki görselden de görebiliriz.

Original samples: Verisetimiz hazır şekilde.

Initial centroids: K değerimizi iki olarak belirleyip birbirine uzak olacak şekilde bu merkezlerimizi koyduk.

Assign samples: Örnekler ile merkezler arasında bulunan uzaklıkları hesapladık. Her örneği kendine yakın olan merkeze göre atadık. Bunu kırmızı ve mavi boyama işlemiyle yaptık.

Re-calculate centroids: Küme merkezlerini yeniden hesaplayıp yeni noktalar belirledik.

Assign samples: Tekrar örnek atamamızı yaptık.

Re-calculate centroids: Tekrar küme merkezlerini belirledik.

Bu işlem optimum modeli bulana kadar devam ediyor.

Bu veriseti biraz da eğitim için hazırlandığından daha kolay anlaşılır dağılımda geldi fakat daha karmaşık da olabilirdi.

Bu örnekte veri setinin yukarıdaki ana parçası 3 alt parçaya bölünürken diğer kısımlarda bu olay gerçekleşmemiş. Verisetimiz burada göründüğü gibi karmaşık şekilde de oluşabilirdi.

You may also like...

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir