8.2. Biriktirilmiş Yerel Etki (Accumulated Local Effects-ALE) Grafikleri

Biriktirilmiş yerel etkiler (Accumulated Local Effects, ALE), özniteliklerin bir makine öğrenimi modelinin tahmini üzerindeki ortalama etkisini açıklar. ALE grafikleri, kısmi bağımlılık grafikleri (PDP'ler) için daha hızlı ve yanlılıktan uzak bir alternatiftir.

Kısmi bağımlılık grafikleri bölümü daha kolay anlaşılır olduğu için önce o bölümü okumanızı öneririm. Her iki yöntem de aynı hedefi paylaşır: Özniteliklerin tahmini ortalama olarak nasıl etkilediğini açıklamak. Ancak, bu bölümde öznitelikler ilişkilendirildiğinde kısmi bağımlılık grafiklerinin ciddi bir sorunu olduğunu size göstermek istiyorum.

8.2.1 Motivasyon ve Sezgi Eğer bir makine öğrenimi modelinin öznitelikleri ilişkilendirilmişse, kısmi bağımlılık grafiğine güvenilemez. Kısmi bağımlılık grafiğinin hesaplanması, diğer özniteliklerle güçlü bir şekilde ilişkili olan bir öznitelik için, gerçekte düşük olasılıkla karşılaşılabilecek yapay veri örneklerinin tahminlerini ortalamayı içerir. Bu durum, tahmini öznitelik etkisini büyük ölçüde saptırabilir.

Örneğin, bir evin değerini oda sayısı ve yaşam alanının büyüklüğüne bağlı olarak tahmin eden bir makine öğrenimi modeli için kısmi bağımlılık grafiği hesapladığımızı düşünelim. Biz, yaşam alanının tahmin edilen değer üzerindeki etkisiyle ilgileniyoruz. Kısmi bağımlılık grafikleri için tarif şu şekildedir:

  1. Özniteliği seç.

  2. Bir grid (ızgara) tanımla.

  3. Her grid değeri için: a) Özniteliği grid değeriyle değiştir. b) Tahminlerin ortalamasını al.

  4. Eğriyi çiz.

PDP'nin ilk grid değerinin hesaplanmasında – örneğin 30 m² – tüm örneklerin yaşam alanını 30 m² olarak değiştiririz, hatta 10 odalı evler için bile. Bu bana çok sıra dışı bir ev gibi geliyor. Kısmi bağımlılık grafiği, bu gerçekçi olmayan evleri öznitelik etkisi tahminine dahil eder ve her şeyin normal olduğunu varsayar. Aşağıdaki şekil, iki ilişkilendirilmiş özniteliği ve kısmi bağımlılık grafik yönteminin nasıl düşük olasılıklı örneklerin tahminlerini ortalamaya dâhil ettiğini göstermektedir.

Figür 8.5: Güçlü şekilde ilişkili özellikler x1 ve x2. x1'in 0.75'teki özellik etkisini hesaplamak için, PDP tüm örneklerin x1'ini 0.75 ile değiştirir, x1 = 0.75'teki x2 dağılımının x2'nin marjinal dağılımı ile aynı olduğunu yanlış varsayar (dikey çizgi). Bu, x1 ve x2'nin olası olmayan kombinasyonlarına yol açar (örneğin, x2=0.2 at x1=0.75), bu da PDP ortalama etki hesaplaması için kullanılır.

Özniteliklerin korelasyonunu göz önünde bulundurarak öznitelik etkisini nasıl tahmin edebiliriz? Bunun için, özniteliğin koşullu dağılımı üzerinden ortalama alabiliriz; bu, x1x grid değeri için, x1 değerine benzer olan örneklerin tahminlerinin ortalamasını almak anlamına gelir. Koşullu dağılımı kullanarak öznitelik etkilerini hesaplama çözümüne Marjinal Grafikler (M-Plots) denir (adlandırma kafa karıştırıcıdır, çünkü bunlar marjinal değil, koşullu dağılıma dayanır).

Ama durun, size ALE grafikleri hakkında konuşacağımı söylemiştim, değil mi? M-Plots, aradığımız çözüm değil. Peki, neden M-Plots sorunumuzu çözmüyor? Eğer 30 m² civarındaki tüm evlerin tahminlerinin ortalamasını alırsak, yaşam alanı ile oda sayısının birleşik etkisini tahmin ederiz, çünkü bu öznitelikler arasında bir korelasyon vardır. Varsayalım ki, yaşam alanının bir evin tahmin edilen değeri üzerinde hiçbir etkisi yok ve yalnızca oda sayısının etkisi var. M-Plot, yaşam alanının boyutunun tahmin edilen değeri artırdığını gösterecektir, çünkü yaşam alanı arttıkça oda sayısı da artar. Aşağıdaki grafik, iki korelasyonlu öznitelik için M-Plots'un nasıl çalıştığını göstermektedir.

Figür 8.6: Güçlü şekilde ilişkili özellikler x1 ve x2. M-Plots, koşullu dağılım üzerinde ortalama alır. Burada x1 = 0.75 için x2'nin koşullu dağılımı. Yerel tahminlerin ortalaması, her iki özelliğin etkilerinin karıştırılmasına yol açar.

M-Plots, düşük olasılıklı veri örneklerinin tahminlerini ortalamaktan kaçınır, ancak bir özniteliğin etkisini, ilişkili tüm özniteliklerin etkileriyle karıştırır. ALE grafikleri, özniteliklerin koşullu dağılımına dayanarak, ortalamalar yerine tahminlerdeki farkları hesaplayarak bu sorunu çözer.

Örneğin, 30 m² yaşam alanının etkisini incelemek için ALE yöntemi, yaklaşık 30 m² olan tüm evleri alır. Bu evlerin tahminlerini, yaşam alanlarının 31 m² olduğunu varsayarak ve ardından 29 m² olduğunu varsayarak hesaplar. Bu işlem, yaşam alanının saf etkisini verir ve bu etkiyi ilişkili özniteliklerin etkileriyle karıştırmaz. Farkların kullanılması, diğer özniteliklerin etkisini engeller. Aşağıdaki grafik, ALE grafiklerinin nasıl hesaplandığına dair bir sezgi sağlar.

Figür 8.7: x1 ve x2 ile ilişkili ALE'nin hesaplanması. İlk olarak, özelliği aralıklara (dikey çizgiler) böleriz. Bir aralıktaki veri örnekleri (noktalarda), özelliği aralığın üst ve alt sınırları ile değiştirdiğimizde tahminde oluşan farkı (yatay çizgiler) hesaplarız. Bu farklar daha sonra biriktirilir ve merkezlenir, bu da ALE eğrisini oluşturur.

Özetlemek gerekirse, her bir grafik türü (PDP, M, ALE) bir özniteliğin belirli bir grid değeri vv üzerindeki etkisini şu şekilde hesaplar:

Kısmi Bağımlılık Grafikleri (PDP): “Tüm veri örneklerinin bu öznitelik için v değerine sahip olduğunu varsaydığımda, modelin ortalama olarak ne tahmin ettiğini size göstereyim. Bu değerin tüm veri örnekleri için mantıklı olup olmadığını umursamam.”

M-Plots: “Bu öznitelik için v değerine yakın değerlere sahip veri örnekleri için modelin ortalama olarak ne tahmin ettiğini size göstereyim. Etki bu öznitelikten kaynaklanabilir ama aynı zamanda ilişkili özniteliklerden de olabilir.”

ALE Grafikleri: “Model tahminlerinin, vv etrafındaki küçük bir 'pencere' içinde yer alan veri örnekleri için bu öznitelik üzerindeki değişimini size göstereyim.”

8.2.2 Teori PDP, M ve ALE grafikleri matematiksel olarak nasıl farklılık gösterir? Üç yöntemin ortak noktası, karmaşık tahmin fonksiyonu f'yi yalnızca bir (veya iki) özniteliğe bağlı bir fonksiyona indirgemeleridir. Üç yöntem de diğer özniteliklerin etkilerini ortalayarak fonksiyonu basitleştirir, ancak şu konularda farklılık gösterirler: Tahminlerin mi yoksa tahminlerdeki farkların mı ortalamasının alındığı, marjinal dağılım mı yoksa koşullu dağılım üzerinden mi ortalama alındığı.

Kısmi Bağımlılık Grafikleri (PDP), tahminlerin marjinal dağılım üzerinden ortalamasını alır.

f^S,PDP(x)=EXC[f^(xS,XC)]=XCf^(xS,XC)dP(XC)\begin{align*} \hat{f}_{S,PDP}(x)&=E_{X_C}\left[\hat{f}(x_S,X_C)\right] \\ & = \int_{X_C}\hat{f}(x_S,X_C)d\mathbb{P}(X_C) \end{align*}

Bu, tahmin fonksiyonu ff'nin, öznitelik değeri/değerleri xSx_S için, XCX_C kümesindeki (burada rastgele değişkenler olarak ele alınan) tüm öznitelikler üzerinde ortalamasının alınmış halidir. Ortalama almak, C kümesindeki öznitelikler üzerinde marjinal beklentiyi (E) hesaplamak anlamına gelir, bu da tahminlerin olasılık dağılımıyla ağırlıklandırılarak integralinin alınmasıdır. Karmaşık gibi görünse de, marjinal dağılım üzerinde beklenen değeri hesaplamak için, tüm veri örneklerimizi alır, S kümesindeki öznitelikler için belirli bir grid değerine zorlar ve bu manipüle edilmiş veri kümesi için tahminlerin ortalamasını alırız. Bu prosedür, özniteliklerin marjinal dağılımı üzerinde ortalama aldığımızı garanti eder.

M-Plots, tahminlerin koşullu dağılım üzerinden ortalamasını alır.

f^S,M(xS)=EXCXS[f^(XS,XC)XS=xs]=XCf^(xS,XC)dP(XCXS=xS)\begin{align*}\hat{f}_{S,M}(x_S)&=E_{X_C|X_S}\left[\hat{f}(X_S,X_C)|X_S=x_s\right]\\&=\int_{X_C}\hat{f}(x_S, X_C)d\mathbb{P}(X_C|X_S = x_S)\end{align*}

PDP'lerle karşılaştırıldığında değişen tek şey, ilgilenilen öznitelik için her grid değerinde marjinal dağılımı varsaymak yerine, tahminlerin koşullu olarak ortalamasını almamızdır. Pratikte bu, bir komşuluk tanımlamamız gerektiği anlamına gelir. Örneğin, 30 m²'nin tahmin edilen ev değeri üzerindeki etkisini hesaplamak için, 28 ile 32 m² arasındaki tüm evlerin tahminlerinin ortalamasını alabiliriz.

ALE grafikleri, tahminlerdeki değişikliklerin ortalamasını alır ve bunları grid boyunca toplar (hesaplama hakkında daha fazla bilgi daha sonra açıklanacaktır).

f^S,ALE(xS)=z0,SxSEXCXS=xS[f^S(Xs,Xc)XS=zS]dzSconstant=z0,SxS(xCf^S(zs,Xc)dP(XCXS=zS)d)dzSconstant\begin{align*} \hat{f}_{S,ALE}(x_S)=&\int_{z_{0,S}}^{x_S}E_{X_C|X_S = x_S}\left[\hat{f}^S(X_s,X_c)|X_S=z_S\right]dz_S-\text{constant}\\ = & \int_{z_{0,S}}^{x_S}(\int_{x_C}\hat{f}^S(z_s,X_c)d\mathbb{P}(X_C|X_S = z_S)d{})dz_S-\text{constant} \end{align*}

Formül, M-Plots ile üç temel farkı ortaya koyar. Birincisi, tahminlerin kendisini değil, tahminlerdeki değişikliklerin ortalamasını alırız. Değişiklik, kısmi türev olarak tanımlanır (ancak hesaplama sırasında, bu türevler tahminlerdeki değişikliklerle, yani bir aralıktaki farklarla değiştirilir).

f^S(xs,xc)=f^(xS,xC)xS\hat{f}^S(x_s,x_c)=\frac{\partial\hat{f}(x_S,x_C)}{\partial{}x_S}

İkinci fark, zz üzerindeki ek integraldir. Set SS'deki özniteliklerin aralığı boyunca yerel kısmi türevleri toplarız, bu da özniteliğin tahmin üzerindeki etkisini verir. Gerçek hesaplama sırasında, zz değerleri bir grid ile değiştirilir ve bu grid aralıkları üzerinde tahmin değişikliklerini hesaplarız. Tahminlerin doğrudan ortalamasını almak yerine, ALE yöntemi, öznitelikler SS'ye koşullu olarak tahmin farklarını hesaplar ve bu öznitelikler üzerinde türevi entegre ederek etkiyi tahmin eder. Bu, yüzeyde saçma gibi görünebilir: Türev ve integral genellikle birbirini götürür, tıpkı önce bir sayıyı çıkarıp sonra aynı sayıyı toplamak gibi. Peki burada neden mantıklı? Türev (veya aralık farkı), ilgilenilen özniteliğin etkisini izole eder ve ilişkili özniteliklerin etkisini engeller.

Üçüncü fark, ALE grafiklerinin M-Plots'a göre sonuçlardan bir sabiti çıkarmasıdır. Bu adım, ALE grafiğini merkezler, böylece veri üzerindeki ortalama etki sıfır olur.

Bir sorun devam ediyor: Tüm modeller türev sunmaz, örneğin rastgele ormanlar (random forests) bir türev sağlamaz. Ancak göreceğiniz gibi, gerçek hesaplama türevlere gerek olmadan çalışır ve aralıkları kullanır. Şimdi, ALE grafiklerinin tahmini üzerine biraz daha derinlemesine bakalım.


8.2.3 Tahmin İlk olarak, tek bir sayısal öznitelik için ALE grafiklerinin nasıl tahmin edildiğini, ardından iki sayısal öznitelik ve tek bir kategorik öznitelik için açıklayacağım. Yerel etkileri tahmin etmek için, özniteliği birçok aralığa böler ve tahminlerdeki farkları hesaplarız. Bu işlem, türevleri yaklaşık olarak hesaplar ve türev sağlamayan modeller için de çalışır.

İlk olarak, merkezlenmemiş etkiyi tahmin ederiz:

f~^j,ALE(x)=k=1kj(x)1nj(k)i:xj(i)Nj(k)[f^(zk,j,xj(i))f^(zk1,j,xj(i))]\hat{\tilde{f}}_{j,ALE}(x)=\sum_{k=1}^{k_j(x)}\frac{1}{n_j(k)}\sum_{i:x_{j}^{(i)}\in{}N_j(k)}\left[\hat{f}(z_{k,j},x^{(i)}_{-j})-\hat{f}(z_{k-1,j},x^{(i)}_{-j})\right]

Bu formülü sağdan başlayarak parçalayalım. Biriktirilmiş Yerel Etkiler (Accumulated Local Effects) terimi, bu formülün tüm bireysel bileşenlerini güzel bir şekilde yansıtır.

ALE yönteminin özünde, tahminlerdeki farkları hesaplamak yer alır; burada ilgilenilen öznitelik, grid değerleri zz ile değiştirilir. Tahmindeki fark, belirli bir aralıktaki bir bireysel örnek için özniteliğin etkisidir. Sağdaki toplam, formülde komşuluk Nj(k)N_{j}(k) olarak gösterilen, bir aralıktaki tüm örneklerin etkilerini toplar. Bu toplam, o aralıktaki örnek sayısına bölünerek bu aralığa ait tahminlerin ortalama farkını verir. Yerel (Local) terimi, ALE adında bu aralık içindeki ortalamayı ifade eder. Soldaki toplam sembolü, tüm aralıklar boyunca ortalama etkileri topladığımızı ifade eder. Örneğin, üçüncü aralıkta yer alan bir öznitelik değerinin (merkezlenmemiş) ALE’si, birinci, ikinci ve üçüncü aralıkların etkilerinin toplamıdır. ALE adındaki Biriktirilmiş (Accumulated) terimi bu toplama sürecini yansıtır.

Bu etki, ortalama etkinin sıfır olması için merkezlenir.

f^j,ALE(x)=f~^j,ALE(x)1ni=1nf~^j,ALE(xj(i))\hat{f}_{j,ALE}(x)=\hat{\tilde{f}}_{j,ALE}(x)-\frac{1}{n}\sum_{i=1}^{n}\hat{\tilde{f}}_{j,ALE}(x^{(i)}_{j})

ALE değerleri, bir özniteliğin belirli bir değerdeki ana etkisini, veri kümesinin ortalama tahmini ile karşılaştırarak yorumlanabilir. Örneğin, xj=3x_j = 3 için bir ALE tahmini -2 ise, bu, j-inci özniteliğin değeri 3 olduğunda, tahminin ortalama tahminden 2 daha düşük olduğunu ifade eder.

Özniteliklerin dağılımındaki çeyrek değerleri, aralıkları tanımlayan grid olarak kullanılır. Çeyrek değerleri kullanmak, her aralıkta aynı sayıda veri örneğinin bulunmasını sağlar. Ancak çeyrek değerlerinin dezavantajı, aralıkların çok farklı uzunluklara sahip olabilmesidir. Bu durum, özellikle ilgilenilen öznitelik çok çarpıksa (örneğin, birçok düşük değere ve yalnızca birkaç yüksek değere sahipse) garip ALE grafiklerine yol açabilir.

İki Özniteliğin Etkileşim Etkisi İçin ALE Grafikleri ALE grafikleri, iki özniteliğin etkileşim etkisini de gösterebilir. Hesaplama ilkeleri tek bir öznitelik için olanlarla aynıdır, ancak aralıklar yerine dikdörtgen hücrelerle çalışılır, çünkü etkileri iki boyutta biriktirmemiz gerekir. Genel ortalama etkiyi ayarlamanın yanı sıra, her iki özniteliğin ana etkilerini de ayarlarız. Bu, iki öznitelik için ALE'nin ikinci dereceden etkileri tahmin ettiği anlamına gelir, yani özniteliklerin ana etkilerini içermez. Başka bir deyişle, iki öznitelik için ALE yalnızca iki özniteliğin ek etkileşim etkisini gösterir.

2D ALE grafikleri için formüller uzun ve okumak zor olduğundan, bunları paylaşmıyorum. Hesaplama ile ilgileniyorsanız, formüller için makaleye, (13)–(16) numaralı denklemlere başvurabilirsiniz. İkinci dereceden ALE hesaplamasına dair sezgi geliştirmek için görselleştirmelere dayanacağım.

Figür 8.8: 2D-ALE'nin hesaplanması. İki özellik üzerine bir ızgara yerleştiririz. Her ızgara hücresinde, içindeki tüm örnekler için 2. dereceden farkları hesaplarız. İlk olarak, x1 ve x2 değerlerini hücre köşelerindeki değerlerle değiştiririz. a, b, c ve d, manipüle edilmiş bir örneğin “köşe”-tahminlerini temsil ediyorsa (grafikte etiketlendiği gibi), o zaman 2. dereceden fark (d - c) - (b - a)'dır. Her hücredeki ortalama 2. dereceden fark, ızgara boyunca biriktirilir ve merkezlenir.

Önceki şekilde, korelasyon nedeniyle birçok hücre boştur. ALE grafiğinde bu durum gri veya karartılmış bir kutuyla görselleştirilebilir. Alternatif olarak, boş bir hücrenin ALE tahmini, en yakın dolu hücrenin ALE tahminiyle değiştirilebilir.

İki öznitelik için ALE tahminleri yalnızca özniteliklerin ikinci dereceden etkisini gösterdiğinden, yorumlama özel bir dikkat gerektirir. İkinci dereceden etki, özniteliklerin ana etkilerinin hesaplanmasının ardından gelen ek etkileşim etkisidir. Örneğin, iki öznitelik birbiriyle etkileşime girmiyorsa ancak her biri tahmin edilen sonuç üzerinde doğrusal bir etkiye sahipse, her öznitelik için 1D ALE grafiğinde düz bir çizgi (ALE eğrisi) görürüz. Ancak, 2D ALE tahminlerini çizdiğimizde bu değerler sıfıra yakın olmalıdır, çünkü ikinci dereceden etki yalnızca ek etkileşim etkisini temsil eder. Bu bağlamda, ALE grafikleri ve PDP'ler farklıdır: PDP'ler her zaman toplam etkiyi gösterirken, ALE grafikleri birinci veya ikinci dereceden etkileri gösterir. Bu, kullanılan matematiğe değil, tasarım kararlarına bağlıdır. Toplam etkileri elde etmek için PDP'den alt düzey etkileri çıkarabilir ya da ALE grafiklerinde alt düzey etkileri çıkarmayarak toplam etkileri tahmin edebilirsiniz.

Biriktirilmiş yerel etkiler, daha yüksek derecelerde (üç veya daha fazla öznitelik etkileşimi) de hesaplanabilir, ancak PDP bölümünde tartışıldığı gibi, iki özniteliğe kadar olan etkileşimlerin görselleştirilmesi veya anlamlı şekilde yorumlanması mantıklıdır.

Kategorik Öznitelikler için ALE Biriktirilmiş yerel etkiler yöntemi, tanım gereği, öznitelik değerlerinin bir sıraya sahip olmasını gerektirir, çünkü yöntem, belirli bir yönde etkileri biriktirir. Kategorik özniteliklerin doğal bir sırası yoktur. Kategorik bir öznitelik için ALE grafiği hesaplamak için bir şekilde bir sıra yaratmamız veya bulmamız gerekir. Kategorilerin sırası, biriktirilmiş yerel etkilerin hesaplanmasını ve yorumlanmasını etkiler.

Bir çözüm, kategorileri diğer özniteliklere dayalı benzerliklerine göre sıralamaktır. İki kategori arasındaki mesafe, her bir öznitelik üzerindeki mesafelerin toplamıdır. Öznitelik bazında mesafe, sayısal öznitelikler için birikimli dağılımın (Kolmogorov-Smirnov mesafesi) veya kategorik öznitelikler için göreli frekans tablolarının karşılaştırılmasıyla hesaplanır. Tüm kategoriler arasındaki mesafeler belirlendikten sonra, çok boyutlu ölçekleme kullanılarak bu mesafe matrisi tek boyutlu bir mesafe ölçüsüne indirgenir. Bu, kategorilerin benzerliğe dayalı bir sırasını verir.

“Mevsim” ve “hava durumu” adında iki kategorik özniteliğimiz ve “sıcaklık” adında bir sayısal özniteliğimiz olduğunu varsayalım. İlk kategorik öznitelik (“mevsim”) için ALE'leri hesaplamak istiyoruz. Bu öznitelik “ilkbahar”, “yaz”, “sonbahar” ve “kış” kategorilerine sahiptir. İlk olarak, “ilkbahar” ve “yaz” kategorileri arasındaki mesafeyi hesaplarız. Bu mesafe, sıcaklık ve hava durumu öznitelikleri üzerindeki mesafelerin toplamıdır. Sıcaklık için, “ilkbahar” kategorisine sahip tüm örnekler için ampirik birikimli dağılım fonksiyonunu hesaplarız ve aynı işlemi “yaz” örnekleri için yaparız. Ardından, Kolmogorov-Smirnov istatistiğiyle bu dağılımların mesafesini ölçeriz. Hava durumu özniteliği için, tüm “ilkbahar” örnekleri için her hava durumu türünün olasılıklarını hesaplar, aynı işlemi “yaz” örnekleri için yapar ve olasılık dağılımındaki mutlak mesafeleri toplarız. Eğer “ilkbahar” ve “yaz” çok farklı sıcaklıklara ve hava durumlarına sahipse, toplam kategori mesafesi büyük olur. Bu işlemi diğer mevsim çiftleriyle tekrarlar ve çok boyutlu ölçekleme ile sonuçtaki mesafe matrisini tek bir boyuta indirgeriz.


8.2.4 Örnekler Şimdi ALE grafiklerini uygulamada görelim. Kısmi bağımlılık grafiklerinin başarısız olduğu bir senaryo oluşturdum. Bu senaryo, bir tahmin modeli ve güçlü şekilde ilişkilendirilmiş iki öznitelikten oluşuyor. Tahmin modeli çoğunlukla bir doğrusal regresyon modeli, ancak daha önce gözlemlenmeyen bazı öznitelik kombinasyonlarında garip davranıyor.

Figür 8.9: İki özellik ve tahmin edilen sonuç. Model, iki özelliğin toplamını tahmin eder (gölgelendirilmiş arka plan), ancak x1 0.7'den büyük ve x2 0.3'ten küçükse, model her zaman 2 tahmin eder. Bu alan, veri dağılımından (nokta bulutu) oldukça uzaktır ve modelin performansını etkilemez ve ayrıca yorumlanmasını da etkilememelidir.

Bu senaryo gerçekçi veya ilgili bir durum mu? Bir model eğittiğinizde, öğrenme algoritması mevcut eğitim veri örneklerinin kaybını minimize eder. Eğitim verilerinin dağılımının dışında kalan bölgelerde modelin garip davranışlar sergilemesi mümkündür, çünkü bu alanlardaki hatalar için model cezalandırılmaz. Veri dağılımının dışına çıkma, ekstrapolasyon olarak adlandırılır ve bu, makine öğrenimi modellerini yanıltmak için kullanılabilir; bu durum, adversarial örnekler bölümünde açıklanmıştır. Küçük bir örnekte, kısmi bağımlılık grafiklerinin ALE grafiklerine kıyasla nasıl davrandığını görün.

Figür 8.10: PDP (üst satır) ve ALE (alt satır) ile hesaplanan özellik etkilerinin karşılaştırılması. PDP tahminleri, veri dağılımının dışında modelin tuhaf davranışlarından (grafiklerdeki dik sıçramalar) etkilenmektedir. ALE grafikler ise, veri olmayan bölgeleri görmezden gelerek makine öğrenimi modelinin özellikler ile tahmin arasında doğrusal bir ilişkiye sahip olduğunu doğru şekilde tanımlar.

Ancak modelimizin x1>0.7 ve x2<0.3 aralığında garip davrandığını görmek ilginç değil mi? Evet ve hayır. Bu, fiziksel olarak imkansız ya da en azından son derece düşük olasılıklı veri örnekleri olduğundan, bu tür örnekleri incelemek genellikle alakasızdır. Ancak, test dağılımınızın biraz farklı olabileceğinden ve bazı örneklerin gerçekten bu aralıkta olduğundan şüpheleniyorsanız, bu alanı öznitelik etkilerinin hesaplanmasına dahil etmek ilginç olabilir. Ancak, bu tür gözlemlenmemiş alanları dahil etmek, bilinçli bir karar olmalıdır ve PDP gibi seçilen yöntemin bir yan etkisi olmamalıdır. Eğer modelin daha sonra farklı dağılımlı verilerle kullanılacağını düşünüyorsanız, ALE grafiklerini kullanmanızı ve beklediğiniz veri dağılımını simüle etmenizi öneririm.

Gerçek bir veri kümesine dönersek, hava durumu ve güne dayalı olarak kiralanan bisiklet sayısını tahmin edelim ve ALE grafiklerinin gerçekten vaat edildiği kadar iyi çalışıp çalışmadığını kontrol edelim. Belirli bir günde kiralanan bisiklet sayısını tahmin etmek için bir regresyon ağacı eğitiyoruz ve sıcaklık, bağıl nem ve rüzgar hızının tahminleri nasıl etkilediğini analiz etmek için ALE grafiklerini kullanıyoruz. Şimdi ALE grafiklerinin ne söylediğine bakalım:

Figür 8.11: Bisiklet tahmin modeli için sıcaklık, nem ve rüzgar hızı üzerine ALE grafikler. Sıcaklığın tahmin üzerinde güçlü bir etkisi vardır. Ortalama tahmin, sıcaklık arttıkça yükselir, ancak 25 derece Santigrat'ın üzerinde tekrar düşer. Nem negatif etkiye sahiptir: %60'ın üzerinde olduğunda, relatif nem arttıkça tahmin düşer. Rüzgar hızı tahminleri pek etkilemez.

Hadi sıcaklık, nem, rüzgar hızı ve diğer tüm öznitelikler arasındaki korelasyona bakalım. Veri kümesi kategorik öznitelikler de içerdiği için, yalnızca sayısal öznitelikler üzerinde çalışan Pearson korelasyon katsayısını kullanamayız. Bunun yerine, bir doğrusal model eğitip, örneğin sıcaklığı diğer bir öznitelik temelinde giriş olarak tahmin etmeye çalışıyorum. Ardından, doğrusal modeldeki diğer özniteliğin ne kadar varyansı açıkladığını ölçer ve karekökünü alırım. Eğer diğer öznitelik sayısalsa, sonuç standart Pearson korelasyon katsayısının mutlak değerine eşittir. Ancak, bu model tabanlı “açıklanan varyans” yaklaşımı (ANOVA olarak da bilinir, yani Varyans Analizi) diğer öznitelik kategorik olsa bile çalışır.

“Açıklanan varyans” ölçüsü her zaman 0 (hiç ilişki yok) ile 1 (sıcaklık tamamen diğer öznitelikten tahmin edilebilir) arasında bir değere sahiptir. Sıcaklık, nem ve rüzgar hızının, diğer tüm özniteliklerle açıklanan varyansını hesaplıyoruz. Açıklanan varyans (korelasyon) ne kadar yüksekse, PD grafiklerinde o kadar fazla (potansiyel) problem olur. Aşağıdaki şekilde, hava durumu özniteliklerinin diğer özniteliklerle ne kadar güçlü bir şekilde ilişkilendirildiği görselleştirilmiştir.

Figür 8.12: Sıcaklık, nem ve rüzgar hızının tüm özelliklerle olan korelasyon gücü, örneğin sıcaklığı tahmin etmek için eğitilmiş bir doğrusal modelde açıklanan varyans miktarı olarak ölçülmüştür. Sıcaklık için – şaşırtıcı olmayan şekilde – mevsim ve ay ile yüksek bir korelasyon gözlemlenir. Nem hava durumu ile korele olur.

Bu korelasyon analizi, özellikle sıcaklık özniteliği için kısmi bağımlılık grafiklerinde sorunlarla karşılaşabileceğimizi ortaya koyuyor. İşte kendiniz görün:

Figür 8.13: Sıcaklık, nem ve rüzgar hızı için PDP'ler. ALE grafiklere kıyasla, PDP'ler yüksek sıcaklık veya yüksek nem için tahmin edilen bisiklet sayısındaki azalmayı daha az gösterir. PDP, yüksek sıcaklık gibi bölgelerde bile veri olmayan bölgeler için tüm veri örneklerini kullanarak etkisini hesaplar, örneğin “kış” mevsimine sahip örnekler. ALE grafikler daha güvenilirdir.

Şimdi, bir kategorik öznitelik için ALE grafiklerini uygulamada görelim. Ay, tahmin edilen bisiklet sayısı üzerindeki etkisini analiz etmek istediğimiz bir kategorik özniteliktir. Tartışılabilir olsa da, aylar zaten belirli bir sıraya sahiptir (Ocak’tan Aralık’a), ancak önce kategorileri benzerliğe göre yeniden sıralayıp ardından etkileri hesapladığımızda ne olacağını görelim. Aylar, sıcaklık veya tatil günü olup olmadığı gibi diğer özniteliklere dayalı olarak her ayın günlerinin benzerliğine göre sıralanmıştır.

Figür 8.14: Kategorik özellik ay için ALE grafik. Aylar, diğer özelliklerin aylara göre dağılımlarına dayalı olarak birbirlerine olan benzerliklerine göre sıralanmıştır. Ocak, Mart ve Nisan aylarının, özellikle Aralık ve Kasım aylarının, diğer aylara göre tahmin edilen kiralanan bisiklet sayısı üzerinde daha düşük etkiye sahip olduğunu gözlemliyoruz.

Birçok öznitelik hava durumu ile ilişkili olduğundan, ayların sırası hava koşullarının aylar arasındaki benzerliğini güçlü bir şekilde yansıtır. Daha soğuk aylar sol tarafta (Şubat’tan Nisan’a) ve daha sıcak aylar sağ tarafta (Ekim’den Ağustos’a) yer alır. Ancak, hava durumu dışındaki özniteliklerin de benzerlik hesaplamasına dahil edildiğini unutmayın; örneğin, tatil günlerinin göreli sıklığı, aylar arasındaki benzerliği hesaplamak için sıcaklıkla aynı ağırlığa sahiptir.

Şimdi, nem ve sıcaklığın tahmin edilen bisiklet sayısı üzerindeki ikinci dereceden etkisini ele alalım. Hatırlayın, ikinci dereceden etki, iki özniteliğin ek etkileşim etkisidir ve ana etkileri içermez. Bu, örneğin, yüksek nemin tahmin edilen bisiklet sayısını ortalama olarak düşürdüğü ana etkisini, ikinci dereceden ALE grafiğinde görmeyeceğiniz anlamına gelir.

Figür 8.15: Hamilelik sayısı ve yaşın tahmin edilen servikal kanser olasılığı üzerindeki 2. dereceden etki ALE grafiği. Daha açık ton, ana etkiler zaten hesaba katıldıktan sonra ortalamanın üzerinde, daha koyu ton ise ortalamanın altında tahmin anlamına gelir. Grafik, sıcaklık ve nem arasında bir etkileşimi ortaya koyuyor: Sıcak ve nemli hava tahmini artırır. Soğuk ve nemli havada ise tahmin edilen bisiklet sayısı üzerinde ek negatif bir etki gösterir.

Unutmayın, hem nemin hem de sıcaklığın ana etkileri, çok sıcak ve nemli havalarda tahmin edilen bisiklet sayısının azaldığını belirtir. Bu nedenle, sıcak ve nemli havalarda sıcaklık ve nemin birleşik etkisi, ana etkilerin toplamı değil, bu toplamdan daha büyüktür. Saf ikinci dereceden etkiyi (az önce gördüğünüz 2D ALE grafiği) ve toplam etkiyi vurgulamak için kısmi bağımlılık grafiğine bakalım. PDP, ortalama tahmini, iki ana etkiyi ve ikinci dereceden etkiyi (etkileşim) birleştiren toplam etkiyi gösterir.

Figür 8.16: Sıcaklık ve nemin tahmin edilen bisiklet sayısı üzerindeki toplam etkisinin PDP'si. Grafik, iki özelliğin ana etkilerini ve etkileşim etkilerini birleştirirken, 2D-ALE grafiği sadece etkileşimi gösterir.

Eğer yalnızca etkileşimle ilgileniyorsanız, ikinci dereceden etkilere bakmalısınız, çünkü toplam etki ana etkileri grafiğe karıştırır. Ancak, özniteliklerin birleşik etkisini öğrenmek istiyorsanız, toplam etkiye (PDP'nin gösterdiği) bakmalısınız. Örneğin, 30 derece sıcaklıkta ve %80 nemde beklenen bisiklet sayısını bilmek istiyorsanız, bunu doğrudan 2D PDP'den okuyabilirsiniz. Ancak aynı değeri ALE grafiklerinden okumak isterseniz, üç grafiği incelemeniz gerekir: sıcaklık için ALE grafiği, nem için ALE grafiği ve sıcaklık + nem için ALE grafiği. Ayrıca genel ortalama tahmini de bilmeniz gerekir.

İki özniteliğin hiç etkileşimi olmadığı bir senaryoda, iki özniteliğin toplam etki grafiği yanıltıcı olabilir, çünkü karmaşık bir manzara göstererek etkileşim varmış izlenimi yaratabilir. Ancak bu durum, yalnızca iki ana etkinin çarpımıdır. İkinci dereceden etki, hemen etkileşim olmadığını gösterecektir.

Bisikletlerden artık yeterince bahsettik, şimdi bir sınıflandırma görevine geçelim. Risk faktörlerine dayalı olarak rahim ağzı kanseri olasılığını tahmin etmek için bir rastgele orman modeli eğitiyoruz. İki öznitelik için biriktirilmiş yerel etkileri görselleştiriyoruz:

Figür 8.17: Yaş ve hormonal doğum kontrol yöntemleri ile geçirilen yılların servikal kanser tahmin olasılığı üzerindeki etkisi için ALE grafiği. Yaş özelliği için, ALE grafiği tahmin edilen kanser olasılığının ortalama olarak 40 yaşına kadar düşük olduğunu ve sonrasında arttığını gösteriyor. Hormonal doğum kontrol yöntemlerinde geçirilen yıl sayısı, özellikle 8 yıldan sonra, tahmin edilen kanser riskinin daha yüksek olması ile ilişkilidir.

Şimdi, hamilelik sayısı ile yaş arasındaki etkileşime bakalım.

Figür 8.18: Hamilelik sayısı ve yaşın 2. dereceden etkisi için ALE grafiği. Grafiğin yorumu biraz belirsiz, aşırı uyuma benziyor. Örneğin, grafik 18-20 yaşında ve 3'ten fazla hamileliği olan kadınlarda (kanser olasılığında %5'e kadar artış) tuhaf bir model davranışı gösteriyor. Bu yaş ve hamilelik sayısı kombinasyonuna sahip kadınların verilerde çok fazla olmaması nedeniyle (gerçek veriler nokta olarak gösterilmiştir), model bu kadınlar için hata yaparken eğitim sırasında ciddi şekilde cezalandırılmıyor.

8.2.5 Avantajlar

ALE grafikleri tarafsızdır, yani öznitelikler ilişkilendirilmiş olsa bile doğru sonuç verir. Kısmi bağımlılık grafikleri (PDP'ler) bu senaryoda başarısız olur çünkü olasılığı düşük veya fiziksel olarak imkansız öznitelik değer kombinasyonları üzerinden marjinalleştirme yapar.

ALE grafikleri, PDP'lere göre daha hızlı hesaplanır ve O(n)O(n)O(n) ölçeğinde çalışır, çünkü maksimum aralık sayısı, her bir örnek için bir aralık olacak şekilde örneklerin sayısıyla sınırlıdır. PDP'ler ise nnn katı kadar grid noktası tahmini gerektirir. Örneğin, 20 grid noktası için PDP'ler, en kötü durumda her bir örnek kadar aralık kullanılan bir ALE grafiğine kıyasla 20 kat daha fazla tahmin gerektirir.

ALE grafikleri, sıfır merkezlidir ve bu, her ALE eğrisi üzerindeki noktanın değerinin, ortalama tahmine göre fark olduğunu ifade eder. 2D ALE grafikleri yalnızca etkileşimi gösterir: Eğer iki öznitelik etkileşimde değilse, grafik hiçbir şey göstermez.

Tüm tahmin fonksiyonu, daha düşük boyutlu ALE fonksiyonlarının toplamına ayrıştırılabilir, bu da fonksiyon ayrıştırma bölümünde açıklanmıştır.

Çoğu durumda, öznitelikler genellikle bir dereceye kadar ilişkilendirildiğinden, ALE grafiklerini PDP'lere tercih etmek mantıklıdır.

8.2.6 Dezavantajlar

Öznitelikler güçlü bir şekilde ilişkilendirilmişse, aralıklar arasında etkilerin yorumlanması doğru değildir. Örneğin, bir 1D-ALE grafiğinin sol ucuna bakarken şu yanlış yoruma açık olabilirsiniz: “ALE eğrisi, bir veri örneği için ilgili özniteliğin değerini kademeli olarak değiştirdiğimizde tahminin ortalama olarak nasıl değiştiğini gösterir ve diğer öznitelik değerlerini sabit tutar.” Oysa etkiler aralık başına (yerel olarak) hesaplanır, bu nedenle yorumlama yalnızca yerel olabilir.

Öznitelikler etkileşime girdiğinde ve ilişkilendirilmiş olduğunda, ALE etkileri doğrusal regresyon modellerindeki katsayılarla farklılık gösterebilir. Grömping (2020), iki ilişkilendirilmiş öznitelik ve ek bir etkileşim terimi içeren bir doğrusal modelde( f^(x)=β0+β1x1+β2x2+β3x1x2\hat{f}(x) = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \beta_3 x_1 x_2 ), birinci dereceden ALE grafiklerinin düz bir çizgi göstermediğini ortaya koymuştur. Bunun yerine, bu grafikler, özniteliklerin çarpımsal etkileşimlerinin bir kısmını içerdiği için hafif eğridir.

Yüksek sayıda aralık içeren ALE grafiklerinde dalgalanma (çok sayıda küçük iniş çıkış) olabilir. Aralık sayısını azaltmak tahminleri daha kararlı hale getirir, ancak bu, modelin bazı gerçek karmaşıklıklarını gizler.

PDP'lerin aksine, ALE grafiklerinin yanında ICE eğrileri bulunmaz. ICE eğrileri, öznitelik etkisinin veri alt kümelerinde nasıl farklı göründüğünü ortaya çıkarabilir. ALE grafiklerinde yalnızca aralık başına etkilerin farklı olup olmadığını kontrol edebilirsiniz, ancak bu, ICE eğrileriyle aynı şey değildir.

İkinci dereceden ALE tahminleri, öznitelik alanında farklı kararlılıklara sahiptir ve bu, herhangi bir şekilde görselleştirilmez. Bunun nedeni, her hücredeki yerel etkinin tahmininin farklı sayıda veri örneği kullanmasıdır.

Bu grafikler, ana etkileri her zaman akılda tutmayı gerektirdiği için yorumlamak biraz zor olabilir. Isı haritalarını iki özniteliğin toplam etkisi olarak okumak cazip gelebilir, ancak bu yalnızca etkileşimin ek etkisidir.

ALE grafiklerinin uygulanması, PDP'lere göre çok daha karmaşıktır ve sezgisel değildir.

ALE grafiklerinde öznitelikler ilişkilendirilmiş olsa bile tarafsızdır, ancak güçlü bir şekilde ilişkilendirilmiş özniteliklerde yorumlama zordur. Bu durumda, yalnızca her iki özniteliği birlikte değiştirmenin etkisini analiz etmek mantıklıdır, ayrı ayrı analiz etmek değil.

Öznitelikler ilişkilendirilmemişse ve hesaplama süresi bir sorun değilse, PDP'ler biraz daha kolay anlaşılır olmaları ve ICE eğrileriyle birlikte çizilebilmeleri nedeniyle tercih edilebilir.

Kural: ALE grafiklerini PDP'lere tercih edin.

8.2.7 Uygulama ve Alternatifler

PDP'ler ve ICE eğrileri, ALE grafiklerine bir alternatiftir. =) ALE grafiklerinin R'deki uygulanması, ALEPlot ve iml paketlerinde bulunur. Python'da ise ALEPython ve Alibi kütüphaneleriyle uygulanabilir.


Apley, Daniel W., and Jingyu Zhu. “Visualizing the effects of predictor variables in black box supervised learning models.” Journal of the Royal Statistical Society: Series B (Statistical Methodology) 82.4 (2020): 1059-1086.↩︎

Grömping, Ulrike. “Model-Agnostic Effects Plots for Interpreting Machine Learning Models.” Reports in Mathematics, Physics and Chemistry: Department II, Beuth University of Applied Sciences Berlin. Report 1/2020 (2020)↩︎

Last updated