Logistic Regresyon Teorisi ve Sigmoid Fonksiyonu
Sınıflandırma denildiğinde akla gelen ilk yöntemlerden birisi olan Logistic Regresyon binary (iki sınıflı) tahmin problemlerinde sıklıkla kullanılmaktadır. Logistic regresyon, adından da anlaşılacağı gibi temelde bir regresyon tekniğidir. Doğrusal Regresyon tekniklerinde bağımlı ve bağımsız değişkenler arasında bir doğrusal ilişki olması beklenirken, logistic regresyonda doğrusal veya doğrusal olmayan bir ilişki de olabilir. Bunun sebebi Doğrusal Regresyonda EKK (En Küçük Karaler)kestirimi kullanılırken Logistic Regresyon en büyük olabilirlik kestirimini kullanılır. Bu durumda ana fark, GLM’in (Generalized Linear Models) en büyük olabilirlik ile aynı “binom” dağılımı üzerinden Logistic Regresyon uygulayabilmemizdir. Bu yazıda Logistic Regresyonu hem teorik olarak basit bir şekilde inceleyeceğiz ve doğrusal regresyon ile arasındaki farklara değineceğiz.
Logistic ve Doğrusal Regresyon Arasındaki Fark
Logistic regresyona başlamadan önce Doğrusal Regresyon’un nasıl çalıştığı hakkında bir fikir sahibi olmak gerek. Aşağıda yer alan görsel, bir ağacın yaşına göre kalınlığının tahmin edilme problemi için, EKK kestirimi ile doğrusal regresyon sonucu oluşan linear doğru ve denklemi göstermektedir. Tabii ki bu kısımda EKK (En Küçük Kareler) kestirimini de açıklamak gerekli. Öncelikle, regresyonda ana amacımız bağımlı ve bağımsız değişken arasındaki ilişkiyi doğrusal bir şekilde tanımlayabilmektedir. Bu durumda bizim bağımlı değişkenimiz “Kalınlık” bağımsız değişkenimiz “Yaş”. Oluşturulan model doğrusal olarak gerçek değerlere en yakın tahmini yapmalıdır. EKK kestirimi gerçek değerler ile, model sonucunda çıkan değerlerin arasındaki farkın karelerinin en küçük olması hedeflenmektedir. Basitçe, EKK kestirimi kullanılarak gerçek değerler ile tahmin edilen değerler arasındaki farkın en düşük olduğu regresyon modeli bulunur. Logistic Regresyonda EKK (Least Squares) yerine en büyük olabilirlik (Maximum Likelihood) kullanılmaktadır. Çünkü, Logistic Regresyonda tahmin edilen durum, sınıfların olasılık değerleridir. Bu durumda oluşturulan model en büyük olabilirlik durumuna göre optimize edilmektedir. Fakat, Logistic Regresyonu daha iyi anlamak için, başlangıçta EKK kestirimi kullanılarak oluşturulan Doğrusal Regresyon üzerinden gideceğiz.
Yukarıdaki görselde sağ tarafta yer alan denklem, tek bir bağımsız değişkenli regresyon modelini temsil etmektedir. Bu denklem aslında, sol tarafta bulunan linear doğrunun denklemidir. Denklemde bulunan “Bo” parametresi, doğrunun “y” eksenini kestiği noktayı, “B1” parametresi ise doğrunun eğimini belirtmektedir. Yani kısaca; doğrusal regresyon iki değişkenin arasındaki ilişkiyi en iyi şekilde açıklayan doğrunun denklemini bulmaya çalışır. 3 boyutlu bir veride yani 1 bağımlı ve 2 bağımsız değişkenden oluşan bir problemde ise regresyon ile ilişkiyi en şekilde açıklayan doğrusal düzlemi bulunmaya çalışılır. Bu şekilde bir regresyon modeli üzerinden tahmin yapıldığında; verilen X (Yaş) değeri için doğruda Y (kalınlık) ekseni üzerine denk gelen nokta tahmin edilen değer olur.
Sınıflandırma problemlerinde, regresyon problemlerinin aksine bir sürekli veri tahmin edilmez. Bunun yeri belirli sınıflar tahmin edilir. Bu durumda Logistic Regresyon için bağımlı değişkenimiz sürekli bir değişken yerine, 0 ve 1 değerlerinden oluşan kesikli bir değişken olacaktır. Burada 0 ve 1, sınıfları temsil etmektedir. Örneğin; “0” A Ağacını “1” B Ağacını temsil edecek şekilde bir değişken oluşturulabilir. Şimdi “Kalınlık” değişkenini kullanarak A Ağacını ve B Ağacını tahmin edebilecek Doğrusal Regresyonun modelinin iki boyutlu düzlemde oluşturacağı doğruyu inceleyelim;
Yukarıdaki görseli incelersek; A ve B ağacının (1 ve 0) kalınlık ile arasındaki ilişkiyi gözlemleyebiliriz. Bu ilişkiye göre “Kalınlık” azaldıkça ağaç “0” olan B Ağacına, arttıkça ağaç “1” olan A ağacına yakınlaşmaktadır. Aralarındaki ilişkiyi açıklayan doğrusal regresyon modelinin oluşturduğu doğru ise yine görselde gösterilmektedir. Bu doğru ile, Kalınlık değerine göre tahmin edilen ağaç (0 ve 1 arasında), doğrunun üzerine denk gelen “y” değerine eşit olmalı. Bu durumda Kalınlığın ilk önce 20 ardından 45 olduğunu varsayalım ve aşağıdaki görseli inceleyelim.
Kalınlık 20 olduğunda doğruda “y” eksenine 0.2 denk gelmektedir. “Bo” ve “B1” değerleri bulunduğu varsayılırsa; bu doğru denkleminde (regresyon denklemi) X1'in yerine 20 koyulduğunda tahmin değerimiz 0.2 olarak karşımıza çıkacaktır. 0.2 değeri 0 değerine daha yakın olduğu için, tahmin sınıfımız 0 olabilir. Yani kalınlık değeri 20 olduğunda ağacımızı B Ağacı olarak tahmin etmiş oluruz. Fakat burda önemli olan nokta değerlerin 0 ile 1 arasında çıkması gerektiğidir. Bu sayede 0 ile 1 arasındaki değer bir olasılık değeri olarak yorumlanabilir. Yani, kalınlığı 20 olan bir ağacın A ağacı olma olasılığı 0.2'dir bu durumda B ağacı olma olasılığı 0.8 olarak yorumlanabilir. Fakat, bu çekilde oluşturulan regresyon denkleminde çok büyük ve küçük kalınlık değerinde“y” değerinin 0 ve 1'in dışına çıkma durumu söz konusudur. Örneğin, kalınlık değeri 45 olduğunda y değeri 1.2 olmaktadır. Logistic regresyonda bu durum istenmemektedir. Bu nedenle model sonucu sigmoid fonksiyonu kullanılarak 0 ile 1 arasına indirgenmektedir. Bu sayede sonuçlar bir olasılık değeri olarak yorumlanabilmektedir.
Logistic Regresyon ve Sigmoid Fonksiyonu
Daha önce de bahsettiğimiz gibi, Logistic Regresyon kullanarak iki sınıf tahmin edilirken, tahmin edilen değerler 0 ile 1 arasında olmalıydı. Bu sayede, tahmin değeri bir olasılık değeri gibi yorumlanarak, tahmin edilen sınıfa karar verilebilmekteydi. Peki, linear bir denklemden çıkan sonuçları nasıl 0 ile 1 arasında elde edebiliriz? Bunun için kullanmamız gereken fonksiyon Sigmoid Fonksiyonu. Aşağıdaki görselde sigmoid fonksiyonunun formülü gösterilmektedir.
Bu formülde yer alan x değeri, modelimizden aldığımız sonuca eşittir. x’ in yerine regresyon denklemimizi eklediğimizde formül aşağıdaki gibi olacaktır;
Bu formülden sonra elde edilen değer, bize tahmin edilen sınıfın bir olma olasılığını vermektedir. Peki bu durumda, regresyon doğrusu iki boyutlu düzlemde nasıl bir hareket gösterir? Aşağıdaki grafikte tam olarak Logistic Regresyon uygulandığında elde edilen sigmoid eğrisi gösterilmektedir. Artık aralarındaki ilişki doğrusal değil bir eğri formundadır.
Yukarıdaki görseli incelersek, sigmoid fonksiyonu sonrasında kalınlık değerleri yani bağımsız değişkenin değeri ne kadar büyük olursa olsun en son alabildiği y tahmin değeri 1 olmaktadır. Aynı şekilde, kalınlık değeri ne kadar küçük olursa olsun, tahmin değeri 0'dan az olmamaktadır. Bu sayede iki sınıfı tahmin sonuçlarını değerlendirirken olasılık değerleri yorumlanabilmektedir.
Logistic Regresyon Sayısal Örnek
Ağaç kalınlığına göre ağaç türünün tahmini probleminden yola çıkarak 30 adet ağacı incelediğimizi varsayalım. Bu ağaçlardan 15'i A ağacı ve diğer 15'i B ağacı olsun. Eğitim aşamasından sonra elde edilen denklemin aşağıdaki gibi olduğunu varsayalım;
Şimdi kalınlığı 35 olan bir ağacın denklemden elde edilen sonucunu inceleyelim;
Şimdi elde edilen sonucu sigmoid fonksiyonundan geçirerek, tahmin sonucumuzu elde edelim;
Elde edilen sonuca göre; Kalınlığı 35 olan bir ağacın 1 sınıfında yani A Ağacı olma olasılığı 0.75. Bu durumda bu değer 0.5 den (yarı olasılık) büyük olduğu için bu Ağacın sınıfını A ağacı olarak tahmin etmiş oluyoruz.
Sonuç
Bu makale kapsamında Logistic Regresyon teorisini ve tahmin sürecinin nasıl işlediğini temel olarak işlemiş olduk. Burada önemli olan noktalardan birisi, Logistic Regresyonun iki sınıflı problemlerde kullanılabilir olmasıdır. 2 den fazla problemlerin logistic regresyon ile sınıflandırılma işlemi için ise Multinomial Logistic Regresyon tekniği kullanılmaktadır. Bu teknik de temel olarak birden fazla Logistic Regresyon modeli oluşturarak, sınıf olasılıklarının elde edilmesine dayanmaktadır.
R’da programlama, istatistik, Logistic Regresyon ve daha fazla Makine öğrenmesi tekniğini hem teorik hem de uygulamalı olarak öğrenmek için, Udemy üzerinde hazırlamış olduğum 50 saat ve 300'den fazla ders içeriğine sahip eğitimimi aşağıdaki linkten inceleyebilirsiniz.