Makine öğrenmesine giriş seviyesindeki ilk adımınız doğrusal regresyon olabilir. Regresyon Türkçeye bağlanım olarak çevrilmiştir. Ancak genellikle regresyon kullanıldığı için bu çalışmada bu şekilde kullanmaya devam edeceğim. Matematiksel olarak kolay anlaşılır ve istatistiksel temelli bu model ile günlük hayatta bir çok konuda tahminleme yapma imkannı bulursunuz.
Eğilim ve yönelimler, satış tahminleme, sigorta risk analizleri sık kullanıldıkları alanlardır.
Elinizdeki en basitinden iki değişkenli verinin bir değişkeninin değerini diğerine bağlı olarak tahmin edebilirsiniz. Tahmin etmek için kullandığınız değişken bağımsız, tahmin etmek istediğiniz değişken ise bağımlı değişkendir. Bu tahminlemenin mümkün olduğu koşullarda doğrusal regresyon kullanabilirsiniz.
-
Ancak unutmamalı ki bağımlı ve bağımsız değişkenler nicel olmalıdır. Bağılmı değişkenin dağılımı her bağımsız değişken değeri için normal dağılıma sahip olması beklenir. Aralarındaki ilişki de doğrusal olmalıdır. Bu varsayımların bazıları sağlanmadığında farklı regresyon teknikleri uygulanabilir.
-
Tahmin etmek istediğiniz bağımlı değişkeni öngören birden fazla da bağımsız değişkeniniz olabilir. Burada doğrusal denklemin katsayıları tahmin edilerek analiz gerçekleştirirsiniz.
-
Tahminleme yaparken bir maliyet fonksiyonu tanımlanır ve bunu minimize ederek en iyi tahminleme yapılmaya çalışılır. Aşağıdaki temsili grafikten de anlayacağınız gibi maliyet fonksiyonu minimize edilirken doğrusal regresyon veri dağılımına fit eder.
😵 Google Colab Not Defterinde Aç
Çalışma için seçtiğimiz veri ve problem: Doğrusal regresyon örneklemesinde çok kullanılan bir veri kümesini kullanacağız. Gıda taşımacılığı yapan bir kamyonun kâr kestirimini yapmaya çalışacağız.
- İki sütundan oluşan bir veri kümemiz var ve ilk sütun şehirlerin popülasyonu hakkında bilgileri barındırırken ikinci sütun kamyonun kâr bilgisini barındırmaktadır. Bağımlı değişkenimiz bu kâr bilgisi olacak yani bunu doğrusal regresyonla bulmak istiyoruz.