8.1 Kısmi Bağımlılık Grafiği - Partial Dependency Plot

Kısmi bağımlılık grafiği (kısaca PDP veya PD grafiği), bir veya iki özniteliğin bir yapay öğrenimi modelinin tahmin edilen çıktısı üzerindeki marjinal etkisini gösterir (J. H. Friedman 2001). PDP, hedef ile bir öznitelik arasındaki ilişkinin doğrusal, monoton veya daha karmaşık olup olmadığını gösterebilir. Örneğin, doğrusal regresyon modeline uygulandığında, PDP her zaman doğrusal bir ilişki gösterir.

Regresyon için kısmi bağımlılık fonksiyonu şu şekilde tanımlanır:

f^S(xS)=EXC[f^(xS,XC)]=f^(xS,XC)dP(XC)\hat{f}_S(x_S)=E_{X_C}\left[\hat{f}(x_S,X_C)\right]=\int\hat{f}(x_S,X_C)d\mathbb{P}(X_C)

Burada xsx_s , kısmi bağımlılık fonksiyonunun çizileceği öznitelikleri; XcX_c ise makine öğrenimi modeli f^\hat f tarafından kullanılan ve burada rastgele değişkenler olarak ele alınan diğer öznitelikleri ifade eder. Genellikle S kümesinde yalnızca bir veya iki öznitelik bulunur. S kümesindeki öznitelikler, tahmin üzerindeki etkilerini öğrenmek istediğimiz özniteliklerdir. xsx_s ve XcX_c öznitelik vektörleri birleştirilerek toplam öznitelik uzayını (x) oluşturur. Kısmi bağımlılık, makine öğrenimi modeli çıktısını C kümesindeki özniteliklerin dağılımı üzerinde marjinalleştirerek çalışır, böylece fonksiyon S kümesindeki özniteliklerle tahmin edilen sonuç arasındaki ilişkiyi gösterir. Diğer öznitelikler üzerinde marjinalleştirme yaparak, yalnızca S kümesindeki özniteliklere bağlı olan ve diğer özniteliklerle etkileşimleri içeren bir fonksiyon elde ederiz.

Kısmi fonksiyon fsf_s Monte Carlo metodu olarak da bilinen, eğitim verisine karşılık gelen değerlerinin ortalaması alınarak tahmin edilir.

f^S(xS)=1ni=1nf^(xS,xC(i))\hat{f}_S(x_S)=\frac{1}{n}\sum_{i=1}^n\hat{f}(x_S,x^{(i)}_{C})

Kısmi bağımlılık fonksiyonu, S özniteliklerinin belirli bir değeri için tahmin üzerindeki ortalama marjinal etkiyi bize söyler. Bu formülde, xcx_c, ilgilenmediğimiz özniteliklere ait veri kümesindeki gerçek öznitelik değerlerini, nn ise veri kümesindeki örnek sayısını ifade eder. PDP'nin bir varsayımı, C kümesindeki özniteliklerin S kümesindeki özniteliklerle ilişkili olmamasıdır. Bu varsayım ihlal edilirse, kısmi bağımlılık grafiği için hesaplanan ortalamalar çok düşük ihtimalli veya hatta imkansız olan veri noktalarını içerebilir (bkz. dezavantajlar).

Yapay öğrenim modelinin olasılık çıktıları verdiği sınıflandırma durumunda, kısmi bağımlılık grafiği, S özniteliklerinin farklı değerleri için belirli bir sınıfın olasılığını gösterir. Birden fazla sınıfla başa çıkmanın kolay bir yolu, her sınıf için bir çizgi veya grafik çizmektir.

Kısmi bağımlılık grafiği bir global yöntemdir: Yöntem, tüm örnekleri dikkate alır ve bir özniteliğin tahmin edilen sonuçla olan global ilişkisi hakkında bir ifade sunar.

Kategorik öznitelikler

Şimdiye kadar sadece sayısal öznitelikleri ele aldık. Kategorik öznitelikler için kısmi bağımlılığı hesaplamak oldukça kolaydır. Her bir kategori için, tüm veri örneklerini aynı kategoriye zorlayarak bir PDP tahmini elde ederiz. Örneğin, bisiklet kiralama veri kümesini ele alıp mevsim için kısmi bağımlılık grafiğiyle ilgileniyorsak, her bir mevsim için bir sayı elde ederiz. "Yaz" için değeri hesaplamak için, tüm veri örneklerinin mevsim değerini "yaz" ile değiştirir ve tahminlerin ortalamasını alırız.

8.1.1 PDP Tabanlı Öznitelik Önemi Greenwell ve arkadaşları (2018), basit bir kısmi bağımlılık tabanlı öznitelik önemi ölçüsü önerdi. Temel motivasyon, düz bir PDP'nin özelliğin önemli olmadığını, PDP'nin ne kadar çok değişiyorsa özelliğin o kadar önemli olduğunu göstermesidir. Sayısal öznitelikler için önem, her bir benzersiz öznitelik değerinin ortalama eğriden sapması olarak tanımlanır:

I(xS)=1K1k=1K(f^S(xS(k))1Kk=1Kf^S(xS(k)))2I(x_S) = \sqrt{\frac{1}{K-1}\sum_{k=1}^K(\hat{f}_S(x^{(k)}_S) - \frac{1}{K}\sum_{k=1}^K \hat{f}_S({x^{(k)}_S))^2}}

Burada xS(k)x^{(k)}_S ​ , XsX_s inci özelliğin 𝐾 benzersiz değerlerini ifade eder. Kategorik öznitelikler için:

I(xS)=(maxk(f^S(xS(k)))mink(f^S(xS(k))))/4I(x_S) = (max_k(\hat{f}_S(x^{(k)}_S)) - min_k(\hat{f}_S(x^{(k)}_S)))/4

Bu, benzersiz kategoriler için PDP değerlerinin aralığının dörde bölünmesiyle elde edilir. Bu tuhaf sapma hesaplama yöntemi "aralık kuralı" olarak adlandırılır. Bu yöntem, yalnızca aralığı bildiğiniz durumlarda sapma için kabaca bir tahmin yapmanıza yardımcı olur. Paydadaki dört değeri, standart normal dağılımdan gelir: Normal dağılımda, verilerin %95'i ortalama etrafında eksi iki ve artı iki standart sapma arasında yer alır. Bu nedenle, aralığın dörde bölünmesi, gerçek varyansı muhtemelen azımsayan kaba bir tahmin sağlar.

PDP tabanlı bu öznitelik önemi dikkatle yorumlanmalıdır. Yalnızca özniteliğin temel etkisini yakalar ve olası öznitelik etkileşimlerini göz ardı eder. Bir öznitelik, permütasyon öznitelik önemi gibi diğer yöntemlere göre çok önemli olabilir, ancak PDP düz olabilir çünkü öznitelik tahmini büyük ölçüde diğer özniteliklerle etkileşim yoluyla etkiler. Bu ölçütün bir başka dezavantajı, benzersiz değerlere göre tanımlanmasıdır. Yalnızca bir örnekle ilişkilendirilmiş benzersiz bir öznitelik değeri, birçok örnekle ilişkilendirilmiş bir değerle aynı ağırlığa sahip olur.

8.1.2 Örnekler Pratikte, S öznitelik kümesi genellikle yalnızca bir veya maksimum iki öznitelik içerir, çünkü bir öznitelik 2D grafikler, iki öznitelik ise 3D grafikler oluşturur. Bunun ötesindeki her şey oldukça zordur. Hatta 2D bir kağıt veya ekranda 3D grafikler bile başlı başına bir zorluktur.

Bisiklet kiralanacak gün sayısını tahmin ettiğimiz regresyon örneğine geri dönelim. Önce bir makine öğrenimi modeli eğitiyoruz, ardından kısmi bağımlılıkları analiz ediyoruz. Bu durumda, bisiklet sayısını tahmin etmek için bir rastgele orman (random forest) modeli eğitilmiş ve modelin öğrendiği ilişkileri görselleştirmek için kısmi bağımlılık grafiği kullanılmıştır. Aşağıdaki şekilde, hava durumu özniteliklerinin tahmin edilen bisiklet sayıları üzerindeki etkisi görselleştirilmiştir.

Ilıman ama çok sıcak olmayan havalarda, model ortalama olarak yüksek sayıda kiralanan bisiklet tahmini yapmaktadır. Ancak, nem oranı %60’ı aştığında potansiyel bisiklet kiralayıcıları bisiklet kiralamaktan giderek vazgeçmektedir. Ayrıca, rüzgar arttıkça bisiklet sürmeyi tercih eden insanların sayısı azalır, bu da mantıklıdır. İlginç bir şekilde, tahmin edilen bisiklet kiralama sayısı, rüzgar hızının 25 km/sa’den 35 km/sa’ye çıkmasıyla düşmemektedir. Ancak, bu aralıkta çok fazla eğitim verisi bulunmadığından, makine öğrenimi modeli bu aralık için anlamlı bir tahmin öğrenememiş olabilir. En azından sezgisel olarak, özellikle rüzgar hızı çok yüksek olduğunda, bisiklet sayısının artan rüzgar hızıyla birlikte azalmasını beklerdim.

Kategorik bir öznitelik ile kısmi bağımlılık grafiğini göstermek için, mevsim özniteliğinin tahmin edilen bisiklet kiralamaları üzerindeki etkisini inceliyoruz.

Rahim ağzı kanseri sınıflandırması için de kısmi bağımlılığı hesaplıyoruz. Bu kez, bir kadının risk faktörlerine dayalı olarak rahim ağzı kanseri olup olmayacağını tahmin etmek için bir rastgele orman modeli eğitiyoruz. Rastgele orman için kanser olasılığının farklı özniteliklere bağlı olarak kısmi bağımlılığını hesaplıyor ve görselleştiriyoruz:

Aynı zamanda iki özniteliğin kısmi bağımlılığını da bir kerede görselleştirebiliriz.


8.1.3 Avantajlar

Kısmi bağımlılık grafiklerinin hesaplanması sezgiseldir: Belirli bir öznitelik değeri için kısmi bağımlılık fonksiyonu, tüm veri noktalarını o öznitelik değerine zorladığımızda alınan ortalama tahmini temsil eder. Deneyimlerime göre, PDP fikrini genellikle herkes kolayca anlayabiliyor.

PDP'si hesaplanan öznitelik diğer özniteliklerle ilişkisizse, PDP'ler, bu özniteliğin tahmini ortalama olarak nasıl etkilediğini mükemmel bir şekilde temsil eder. İlişkisiz durumda, yorumlama nettir: Kısmi bağımlılık grafiği, veri kümenizdeki ortalama tahminin, jj-inci öznitelik değiştiğinde nasıl değiştiğini gösterir. Ancak öznitelikler ilişkilendirildiğinde durum daha karmaşıktır (bkz. Dezavantajlar).

Kısmi bağımlılık grafikleri kolayca uygulanabilir.

PDP hesaplamasının nedensel bir yorumu vardır. Bir özniteliği değiştirerek tahminlerdeki değişiklikleri ölçeriz. Böylece öznitelik ile tahmin arasındaki nedensel ilişkiyi analiz ederiz. Bu ilişki model için nedenseldir – çünkü çıktıyı özniteliklerin bir fonksiyonu olarak açıkça modelliyoruz – ancak gerçek dünya için zorunlu olarak nedensel değildir!


8.1.4 Dezavantajlar

Kısmi bağımlılık fonksiyonundaki öznitelik sayısının gerçekçi maksimumu iki ile sınırlıdır. Bu PDP'lerin değil, 2 boyutlu temsilin (kağıt veya ekran) ve aynı zamanda 3 boyuttan fazlasını hayal edemememizin bir sonucudur.

Bazı PDP grafiklerinde öznitelik dağılımı gösterilmez. Dağılımın gösterilmemesi yanıltıcı olabilir, çünkü neredeyse hiç veri olmayan bölgeleri aşırı yorumlayabilirsiniz. Bu sorun, eksen üzerinde veri noktaları için göstergeler (rug plot) veya bir histogram ekleyerek kolayca çözülebilir.

Bağımsızlık varsayımı PDP grafiklerinin en büyük sorunudur. Kısmi bağımlılığın hesaplandığı özniteliğin diğer özniteliklerle ilişkisiz olduğu varsayılır. Örneğin, bir kişinin yürüme hızını, kilosu ve boyuna bağlı olarak tahmin etmek istiyorsanız, bir öznitelik (örneğin, boy) için PDP'yi hesaplarken, diğer özniteliklerin (kilo) boy ile ilişkili olmadığı varsayılır, ki bu açıkça yanlış bir varsayımdır. Örneğin, 200 cm'lik bir boy için PDP hesaplanırken, kilo dağılımı üzerinde ortalama alınır. Bu, 50 kg’ın altında bir kilo içerebilir, ki bu da 2 metre boyunda bir kişi için gerçekçi değildir. Başka bir deyişle: Öznitelikler ilişkili olduğunda, öznitelik dağılımının gerçek olasılığının çok düşük olduğu alanlarda yeni veri noktaları yaratırız (örneğin, 2 metre boyunda birinin 50 kg’ın altında olması pek olası değildir). Bu sorunun bir çözümü, marjinal yerine koşullu dağılımla çalışan Biriktirilmiş Yerel Etki (ALE) grafikleridir.

  • Heterojen etkiler gizlenebilir çünkü PDP grafikleri yalnızca ortalama marjinal etkileri gösterir. Örneğin, bir öznitelik için veri noktalarınızın yarısında tahmin ile pozitif bir ilişki varsa – öznitelik değeri büyüdükçe tahmin büyür – ve diğer yarısında negatif bir ilişki varsa – öznitelik değeri küçüldükçe tahmin büyür – PDP eğrisi yatay bir çizgi olabilir, çünkü veri kümesinin iki yarısının etkileri birbirini nötralize edebilir. Bireysel koşullu beklenti (ICE) eğrilerini toplu çizgi yerine çizerek heterojen etkileri ortaya çıkarabiliriz.

8.1.5 Yazılım ve Alternatifler

R'da PDP'leri uygulayan birçok paket vardır. Örnekler için iml paketini kullandım, ancak pdp veya DALEX de bulunmaktadır. Python'da, kısmi bağımlılık grafikleri scikit-learn'de yerleşik olarak bulunur ve PDPBox kullanılabilir.

Bu kitapta PDP'lere alternatif olarak ALE grafiklerine ve ICE eğrilerine yer verilmiştir.


Friedman, Jerome H. “Greedy function approximation: A gradient boosting machine.” Annals of statistics (2001): 1189-1232.↩︎

Greenwell, Brandon M., Bradley C. Boehmke, and Andrew J. McCarthy. “A simple and effective model-based variable importance measure.” arXiv preprint arXiv:1805.04755 (2018).↩︎

Zhao, Qingyuan, and Trevor Hastie. “Causal interpretations of black-box models.” Journal of Business & Economic Statistics, to appear. (2017).↩︎

Last updated