8.4 Fonksiyonel Ayrıştırma (Functional Decomposition)

Previous8.3 Öznitelik Etkileşimi (Feature Interaction)Next8.5 Permütasyon Öznitelik Önemi (Permutation Feature Importance)

Last updated 5 months ago

8.4 Fonksiyonel Ayrıştırma (Functional Decomposition)

Denetimli bir makine öğrenimi modeli, yüksek boyutlu bir öznitelik vektörünü giriş olarak alan ve bir tahmin veya sınıflandırma skoru üreten bir fonksiyon olarak görülebilir. Fonksiyonel ayrıştırma, bu yüksek boyutlu fonksiyonu deşifre eden ve onu görselleştirilebilen bireysel öznitelik etkileri ve etkileşim etkilerinin toplamı olarak ifade eden bir yorumlama tekniğidir. Ayrıca, fonksiyonel ayrıştırma, birçok yorumlama tekniğinin temelini oluşturan bir prensiptir – diğer yorumlama yöntemlerini daha iyi anlamanıza yardımcı olur.

Hadi hemen başlayalım ve belirli bir fonksiyona bakalım. Bu fonksiyon, giriş olarak iki öznitelik alır ve bir boyutlu bir çıktı üretir:

y = \hat{f}(x_1, x_2) = 2 + e^{x_1} - x_2 + x_1 \cdot x_2

Bu fonksiyonu bir makine öğrenimi modeli olarak düşünebilirsiniz. Fonksiyonu, bir 3D grafik veya kontur çizgileri içeren bir ısı haritasıyla görselleştirebiliriz:

Fonksiyon $X_1$ büyük ve $X_2$ küçük olduğunda büyük değerler alır, $X_1$ küçük ve $X_2$ büyük olduğunda ise küçük değerler alır. Tahmin fonksiyonu, iki öznitelik arasında basit bir toplamsal etki değildir, aksine iki öznitelik arasındaki bir etkileşimdir. Etkileşimin varlığı şekilde görülebilir – $X_1$ özniteliğinin değerlerini değiştirme etkisi, $X_2$ özniteliğinin sahip olduğu değere bağlıdır.

The function takes large values when $X_1$ is large and $X_2$ is small, and it takes small values for large $X_2$ and small $X_1$ . The prediction function is not simply an additive effect between the two features, but an interaction between the two. The presence of an interaction can be seen in the figure – the effect of changing values for feature $X_1$ depends on the value that feature $X2X2$ $X_2$ has.

Şimdi görevimiz, bu fonksiyonu $X_1$ ve $X_2$ özniteliklerinin ana etkileri ile bir etkileşim terimine ayrıştırmaktır. Sadece iki giriş özniteliğine bağlı olan iki boyutlu bir fonksiyon $\hat f(x_1,x_2)$ , için, her bir bileşenin bir ana etki ( $f_{1}$ ve $f_{2}$ ), bir etkileşim ( $f_{1,2}$ ) veya bir kesişim ( $f_{0}$ ) temsil etmesini istiyoruz:

\hat{f}(x_1, x_2) = \hat{f}_0 + \hat{f}_1(x_1) + \hat{f}_2(x_2) + \hat{f}_{1,2}(x_{1},x_{2})

Ana etkiler, her bir özniteliğin diğer özniteliğin değerlerinden bağımsız olarak tahmini nasıl etkilediğini gösterir. Etkileşim etkisi, özniteliklerin birleşik etkisini ifade eder. Kesişim terimi, tüm öznitelik etkileri sıfıra ayarlandığında tahminin ne olduğunu belirtir. Dikkat edilmesi gereken nokta, bu bileşenlerin (kesişim dışında) farklı giriş boyutlarına sahip fonksiyonlar olduğudur.

Şimdi size bileşenleri vereceğim ve bunların nereden geldiğini daha sonra açıklayacağım. Kesişim ( $f_{0}$ ) yaklaşık olarak 3.18'dir. Diğer bileşenler fonksiyon olduğu için bunları görselleştirebiliriz:

Yukarıdaki gerçek formüle bakıldığında, kesişim değerinin biraz rastgele göründüğünü görmezden gelirsek, bileşenler mantıklı görünüyor mu? $x_1$ özniteliği üstel bir ana etki gösteriyor, $x_2$ ise negatif doğrusal bir etki gösteriyor. Etkileşim terimi ise biraz "Pringles cipsi"ne benziyor. Daha az gevrek ve daha matematiksel bir ifadeyle, bu, beklediğimiz gibi hiperbolik bir paraboloid: $x_1.x_2$

Spoiler uyarısı: Bu ayrıştırma, bu bölümde daha sonra tartışacağımız biriken yerel etki grafikleri temel alınarak yapılmıştır.

8.4.1 Bileşenleri Hesaplamama Yöntemi I

Ama neden tüm bu heyecan? Formüle bir bakış, zaten ayrıştırmanın cevabını veriyor, bu yüzden süslü yöntemlere gerek yok, değil mi? Öznitelik $x_1$ için, yalnızca $x_1$ içeren tüm terimleri bu öznitelik için bir bileşen olarak alabiliriz. Bu, $\hat f_1(x_1) = e^{x_1}$ ve $\hat f_2(x_2) = {-x_2}$ olur. Etkileşim ise $\hat{f}_{12}(x_{1},x_{2}) = x_1 \cdot x_2$ olur. Bu örnek için doğru cevap bu (sabitlere kadar), ancak bu yaklaşımın iki problemi var: Problem 1): Örnek bir formülle başladı, ama gerçek şu ki neredeyse hiçbir makine öğrenimi modeli bu kadar düzgün bir formülle tanımlanamaz. Problem 2): Çok daha karmaşıktır ve bir etkileşimin ne olduğuyla ilgilidir. Basit bir fonksiyon düşünün: $\hat{f}_{12}(x_{1},x_{2}) = x_1 \cdot x_2$ , burada her iki öznitelik sıfırdan büyük değerler alır ve birbirinden bağımsızdır. Formüle bakış taktiğimizi kullanarak, $x_1$ ve $x_2$ arasında bir etkileşim olduğunu, ancak bireysel öznitelik etkilerinin olmadığını söyleyebiliriz. Ama gerçekten $x_1$ ’in tahmin fonksiyonu üzerinde bireysel bir etkisi olmadığını söyleyebilir miyiz? $x_2$ nin ne değer aldığına bakılmaksızın, tahmin $x_1$ ’i artırdığımızda artar. Örneğin, $x_2 = 1$ olduğunda, $x_1$ ’in etkisi $\hat{f}(x_1, 1) = x_1$ ’dir, ve $x_2=10$ olduğunda, etki $\hat{f}(x_1, 10) = x_1.10$ ’dur. Bu nedenle, $x_1$ ’in tahmin üzerinde pozitif bir etkisi olduğu ve bunun $x_2$ ’den bağımsız olarak sıfır olmadığı açıktır. Problem 1) düzenli bir formüle erişim eksikliğini çözmek için yalnızca tahmin fonksiyonunu veya sınıflandırma skorunu kullanan bir yönteme ihtiyacımız var. Problem 2) tanım eksikliğini çözmek için bileşenlerin nasıl görünmesi gerektiğini ve birbirleriyle nasıl ilişkili olduklarını söyleyen bazı aksiyomlara ihtiyacımız var. Ama önce fonksiyonel ayrıştırmanın tam olarak ne olduğunu tanımlamalıyız.

8.4.2 Fonksiyonel Ayrıştırma Bir tahmin fonksiyonu, p özniteliği giriş olarak alır $\hat{f}: \mathbb{R}^p \mapsto \mathbb{R}$ ve bir çıktı üretir. Bu, bir regresyon fonksiyonu olabileceği gibi, belirli bir sınıf için sınıflandırma olasılığı veya belirli bir küme için skor (denetimsiz makine öğrenimi) olabilir. Tam olarak ayrıştırıldığında, tahmin fonksiyonunu fonksiyonel bileşenlerin toplamı olarak ifade edebiliriz:

\begin{align*} \hat{f}(x) = & \hat{f}_0 + \hat{f}_1(x_1) + \ldots + \hat{f}_p(x_p) \\ & + \hat{f}_{1,2}(x_1, x_2) + \ldots + \hat{f}_{1,p}(x_1, x_p) + \ldots + \hat{f}_{p-1,p}(x_{p-1}, x_p) \\ & + \ldots \\ & + \hat{f}_{1,\ldots,p}(x_1, \ldots, x_p) \end{align*}

Ayrıştırma formülünü, öznitelik kombinasyonlarının tüm olası alt kümelerini indeksleyerek biraz daha düzenli hale getirebiliriz: $S⊆{1,…,p}$ . . Bu küme, kesişim ( $S=∅$ ), ana etkiler ( $|S|=1|$ ) ve tüm etkileşimleri ( $|S|≥1$ ). içerir. Bu alt kümeyi tanımladıktan sonra, ayrıştırmayı şu şekilde yazabiliriz:

\hat{f}(x) = \sum_{S\subseteq\{1,\ldots,p\}} \hat{f}_S(x_S)

Formülde, ( $x_s$ ), indeks kümesi ( $S$ )'deki özniteliklerin vektörüdür. Her bir alt küme ( $S$ ), bir fonksiyonel bileşeni temsil eder; örneğin, eğer ( $S$ ) yalnızca bir öznitelik içeriyorsa bir ana etkiyi, eğer ( $|S|>1$ ) ise bir etkileşimi ifade eder.

Yukarıdaki formülde kaç bileşen olduğunu merak ediyor musunuz? Cevap, $1,…,p$ 'ye öznitelikler için kaç farklı alt küme $S$ oluşturabileceğimize bağlı. Ve bu da $\sum_{i=0}^p\binom{p}{i}=2^p$ farklı alt küme! Örneğin, bir fonksiyon 10 öznitelik kullanıyorsa, bu fonksiyonu 1042 bileşene ayrıştırabiliriz: 1 kesişim, 10 ana etki, 90 iki yönlü etkileşim terimi, 720 üç yönlü etkileşim terimi, … Ve her eklenen öznitelikle bileşen sayısı iki katına çıkar. Açıkça görülüyor ki, çoğu fonksiyon için tüm bileşenleri hesaplamak mümkün değildir. Tüm bileşenleri hesaplamamanın bir diğer nedeni, $|S|>2$ iken görselleştirme ve yorumlamanın zor olması.

8.4.3 Bileşenleri Hesaplamama Yöntemi II Şu ana kadar bileşenlerin nasıl tanımlandığı ve hesaplandığı hakkında konuşmaktan kaçındım. Şimdiye kadar yalnızca bileşenlerin sayısı ve boyutları ile ilgili kısıtlamalardan ve bileşenlerin toplamının orijinal fonksiyonu vermesi gerektiğinden bahsettik. Ancak bileşenlerin ne olması gerektiği konusunda başka kısıtlamalar olmadan, bu bileşenler benzersiz değildir. Bu, ana etkiler ile etkileşimler arasında ya da düşük dereceli etkileşimler (az sayıda öznitelik) ile yüksek dereceli etkileşimler (daha fazla öznitelik) arasında etkileri kaydırabileceğimiz anlamına gelir. Bölümün başındaki örnekte, her iki ana etkiyi sıfıra ayarlayıp, etkilerini etkileşim etkisine ekleyebilirdik.

Bileşenler üzerinde kısıtlamalar yapılması gerekliliğini gösteren daha uç bir örnek: Diyelim ki 3 boyutlu bir fonksiyonunuz var. Bu fonksiyonun nasıl göründüğü çok önemli değil, ancak aşağıdaki ayrıştırma her zaman işe yarar:

$\hat f_0$ 0.12’dir. $\hat f(x_1) = 2. x_1$ + sahip olduğunuz ayakkabı sayısına eşittir. $\hat{f}_2, \hat{f}_3, \hat{f}_{1,2}, \hat{f}_{2,3}, \hat{f}_{1,3}$ bileşenleri sıfırdır. Ve bu yöntemi çalıştırmak için, $\hat{f}_{1,2,3}(x_1,x_2,x_3)=\hat{f}(x)-\sum_{S\subset\{1,\ldots,p\}}\hat{f}_S(x_S)$ olarak tanımlıyorum. Böylece, tüm öznitelikleri içeren etkileşim terimi, kalan tüm etkileri içine çeker ve bu, tanım gereği her zaman işe yarar, çünkü tüm bileşenlerin toplamı orijinal tahmin fonksiyonunu verir. Ancak, bu ayrıştırma pek anlamlı olmaz ve bunu modelinizin yorumu olarak sunarsanız oldukça yanıltıcı olur.

Bu belirsizlik, bileşenleri hesaplamak için ek kısıtlamalar veya belirli yöntemler tanımlanarak önlenebilir. Bu bölümde, fonksiyonel ayrıştırmaya farklı yaklaşımlar sunan üç yöntemi tartışacağız:

(Genelleştirilmiş) Fonksiyonel ANOVA
Biriken Yerel Etkiler (ALE)
İstatistiksel regresyon modelleri

8.4.4 Fonksiyonel ANOVA Fonksiyonel ANOVA, Hooker (2004) tarafından önerilmiştir. Bu yaklaşımın bir gerekliliği, model tahmin fonksiyonu $\hat f$ 'in kare integrallenebilir olmasıdır. Herhangi bir fonksiyonel ayrıştırmada olduğu gibi, fonksiyonel ANOVA da fonksiyonu bileşenlere ayrıştırır:

\hat{f}(x) = \sum_{S\subseteq\{1,\ldots,p\}} \hat{f}_S(x_S)

Hooker (2004), her bir bileşeni aşağıdaki formülle tanımlar:

f(x) = x * e^{2 pi i \xi x}

Tamam, bu ifadeyi parçalayalım. Bileşeni şu şekilde yeniden yazabiliriz:

\hat{f}_S(x) = \int_{X_{-S}} \left( \hat{f}(x)\right) d X_{-S} - \int_{X_{-S}} \left(\sum_{V \subset S} \hat{f}_V(x) \right) d X_{-S}

Sol tarafta, tahmin fonksiyonu üzerinde, $S$ kümesine dahil olmayan öznitelikler $-S$ ile ilgili bir integral bulunur. Örneğin, 2 ve 3 numaralı özniteliklerin iki yönlü etkileşim bileşenini hesaplamak istiyorsak, 1, 4, 5, … numaralı öznitelikler üzerinde entegrasyon yaparız. Bu integral, tüm özniteliklerin minimum ve maksimum değerleri arasında tekdüze bir dağılım izlediği varsayılarak, tahmin fonksiyonunun $X_{-S}$ 'e göre beklenen değeri olarak da düşünülebilir. Bu aralıktan, $S$ 'nin alt kümelerine ait tüm bileşenleri çıkarırız. Bu çıkarma işlemi, tüm düşük dereceli etkileri ortadan kaldırır ve etkiyi merkezler. $S=\{1,2\}$ için, hem 1 hem de 2 numaralı özniteliklerin ana etkileri ( $\hat f_1$ ve $\hat f_2$ ) ile kesişim $\hat f_0$ çıkarılır. Bu düşük dereceli etkilerin varlığı formülü yinelemeli hale getirir: Alt kümelerin hiyerarşisinden kesişime kadar ilerlememiz ve tüm bu bileşenleri hesaplamamız gerekir. Kesişim bileşeni $\hat f_0$ için, alt küme boş kümedir ( $S={∅}$ ), dolayısıyla $−S$ , tüm öznitelikleri içerir:

\hat{f}_0(x) = \int_{X} \hat{f}(x) dX

Bu, tahmin fonksiyonunun tüm öznitelikler üzerinde integre edilmesinden ibarettir. Kesişim terimi ayrıca, tüm özniteliklerin tekdüze bir dağılıma sahip olduğunu varsaydığımızda tahmin fonksiyonunun beklenen değeri olarak da yorumlanabilir. Şimdi $\hat f_0$ 'ı biliyoruz ve $\hat f_1$ 'i hesaplayabiliriz.

\hat{f}_1(x) = \int_{X_{-1}} \left( \hat{f}(x) - \hat{f}_0\right) d X_{-S}

$\hat f_{1,2}$ bileşeni için hesaplamayı tamamlamak adına her şeyi bir araya getirebiliriz:

\begin{align*}\hat{f}_{1,2}(x) &= \int_{X_{3,4}} \left( \hat{f}(x) - (\hat{f}_0(x) + \hat{f}_1(x) - \hat{f}_0 + \hat{f}_2(x) - \hat{f}_0)\right) d X_{3},X_4 \\ &= \int_{X_{3,4}} \left(\hat{f}(x) - \hat{f}_1(x) - \hat{f}_2(x) + \hat{f}_0\right) d X_{3},X_4 \end{align*}

Bu örnek, her bir üst-derece etkinin, diğer tüm öznitelikler üzerinde entegrasyon yapılarak tanımlandığını, ancak aynı zamanda ilgilendiğimiz öznitelik kümesinin alt kümeleri olan alt-derece etkilerin kaldırıldığını göstermektedir.

Hooker (2004), fonksiyonel bileşenlerin bu tanımının şu arzu edilen aksiyomları karşıladığını göstermiştir:

Sıfır Ortalama: $\int{}\hat{f}_S(x_S)dX_s=0$ her $S≠∅$ .
Ortogonalite: $∫\hat f_S(x_S)\hat f_V(x_v)dX=0$ , $S≠V$ için
Varyans ayrıştırma: $\sigma^2_{\hat{f}}=\int \hat{f}(x)^2dX$ olsun, sonra $\sigma^2(\hat{f}) = \sum_{S \subseteq \{1,\ldots,p\}} \sigma^2_S(\hat{f}_S)$

Sıfır ortalama aksiyomu, tüm etkilerin veya etkileşimlerin sıfır etrafında merkezlendiğini ifade eder. Bunun bir sonucu olarak, bir x konumundaki yorum, mutlak tahmine değil merkezlenmiş tahmine göredir. Ortogonalite aksiyomu, bileşenlerin bilgi paylaşmadığını ifade eder. Örneğin, bir özniteliğin birinci dereceden etkisi ve iki özniteliğin $X_1$ ve $X_2$ etkileşim terimi korele değildir. Ortogonalite sayesinde, tüm bileşenler "saf" olur; bu, etkilerin karışmadığı anlamına gelir. Örneğin, bir özniteliğin bileşeni (örneğin $X_4$ ) diğer öznitelikler ( $X_1$ ve $X_2$ ) arasındaki etkileşim teriminden bağımsız olmalıdır. Daha ilginç bir sonuç, biri diğerini içeren hiyerarşik bileşenlerin ortogonalitesinde ortaya çıkar, örneğin $X_1$ ve YY etkileşimi ve $X_1$ özniteliğinin ana etkisi. Buna karşılık, $X_1$ ve $X_2$ için iki boyutlu kısmi bağımlılık grafiği şu dört etkiyi içerir: sabit terim, $X_1$ ve $X_2$ 'nin ana etkileri ve bunlar arasındaki etkileşim. $\hat f_{1,2}(x_1,x_2)$ için fonksiyonel ANOVA bileşeni yalnızca saf etkileşimi içerir. Varyans ayrıştırma, fonksiyonun $\hat f$ varyansını bileşenlere bölmemize ve sonunda toplam fonksiyon varyansını toplamasını garanti etmemize olanak tanır. Varyans ayrıştırma özelliği ayrıca bu yönteme neden "fonksiyonel ANOVA" adı verildiğini açıklayabilir. İstatistikte, ANOVA varyans analizi (Analysis Of Variance) anlamına gelir. ANOVA, bir hedef değişkendeki ortalamalardaki farkları analiz eden yöntemlerden oluşur. ANOVA, varyansı bölerek değişkenlere atar. Bu nedenle, fonksiyonel ANOVA bu kavramın herhangi bir fonksiyona genişletilmesi olarak görülebilir. Fonksiyonel ANOVA ile ilgili sorunlar, öznitelikler korele olduğunda ortaya çıkar. Bir çözüm olarak, genelleştirilmiş fonksiyonel ANOVA önerilmiştir.s by dividing the variance and attributing it to the variables. Functional ANOVA can therefore be seen as an extension of this concept to any function.

Problems arise with the functional ANOVA when features are correlated. As a solution, the generalized functional ANOVA has been proposed.

8.4.5 Bağımlı Öznitelikler için Genelleştirilmiş Fonksiyonel ANOVA Çoğu örnekleme verilerine dayalı yorumlama tekniğinde olduğu gibi (örneğin PDP), öznitelikler korelasyonlu olduğunda fonksiyonel ANOVA yanıltıcı sonuçlar üretebilir. Özellikle, öznitelikler bağımlı olduğunda, birim dağılım üzerinde entegrasyon yaptığımızda, gerçekte eklemli dağılımdan saparak yeni bir veri kümesi oluşturur ve bu, olası olmayan öznitelik değer kombinasyonlarına extrapolasyon yapar.

Hooker (2007), bağımlı öznitelikler için çalışan bir ayrıştırma yöntemi olan genelleştirilmiş fonksiyonel ANOVA’yı önermiştir. Bu, daha önce karşılaştığımız fonksiyonel ANOVA’nın bir genelleştirilmesidir, yani fonksiyonel ANOVA, genelleştirilmiş fonksiyonel ANOVA’nın özel bir durumudur. Bileşenler, f'nin toplamsal fonksiyonlar uzayına projeksiyonları olarak tanımlanır:

$\hat{f}_S(x_S) = argmin_{g_S \in L^2(\mathbb{R}^S)_{S \in P}} \int \left(\hat{f}(x) - \sum_{S \subset P} g_S(x_S)\right)^2 w(x)dx.$

Ortogonalite yerine, bileşenler hiyerarşik bir ortogonalite koşulunu sağlar:

\forall \hat{f}_S(x_S)| S \subset U: \int \hat{f}_S(x_S) \hat{f}_U(x_U) w(x)dx = 0

Hiyerarşik ortogonalite, standart ortogonaliteden farklıdır. İki öznitelik kümesi SS ve UU için, eğer bunlar birbirlerinin alt kümesi değilse (örneğin, $S=\{1,2\}$ ve $U=\{2,3\}$ ), hiyerarşik ortogonalite için $\hat f_S$ ve $\hat f_U$ bileşenlerinin ortogonal olması gerekmez. Ancak, S'nin tüm alt kümelerinin bileşenleri, $\hat f_S$ ile ortogonal olmalıdır.

Bunun bir sonucu olarak, yorumlama belirli şekillerde farklılık gösterir: ALE bölümündeki M-Plot'a benzer şekilde, genelleştirilmiş fonksiyonel ANOVA bileşenleri, korele özniteliklerin (marjinal) etkilerini birbirine karıştırabilir. Bileşenlerin marjinal etkileri karıştırıp karıştırmadığı, ağırlık fonksiyonu ww'nun seçimine de bağlıdır. Eğer $w(x)$ 'i birim küpte birim dağılım (uniform measure) olarak seçersek, yukarıdaki bölümdeki fonksiyonel ANOVA'yı elde ederiz.

Doğal bir w seçimi, birleşik olasılık dağılım fonksiyonudur. Ancak, birleşik dağılım genellikle bilinmez ve tahmin edilmesi zordur. Bu durumda bir yöntem, birim küp üzerindeki birim dağılım ile başlamaktır ve verinin olmadığı alanları kesip çıkarmaktır.

Tahmin, öznitelik uzayındaki bir nokta ızgarası üzerinde gerçekleştirilir ve bir regresyon tekniği kullanılarak çözülebilecek bir minimizasyon problemi olarak ifade edilir. Ancak, bileşenler bireysel olarak veya hiyerarşik bir şekilde hesaplanamaz; bunun yerine diğer bileşenleri içeren karmaşık bir denklem sistemi çözülmelidir. Bu nedenle, hesaplama oldukça karmaşık ve hesaplama açısından yoğun bir süreçtir.

8.4.6 Birikimli Yerel Etki (ALE) Grafikleri

ALE grafikleri (Apley ve Zhu 2020), fonksiyonel bir ayrıştırma sunar; bu da intercept, 1D ALE grafikleri, 2D ALE grafikleri ve diğerlerinin toplamının tahmin fonksiyonunu oluşturduğu anlamına gelir. ALE, (genelleştirilmiş) fonksiyonel ANOVA’dan farklıdır, çünkü bileşenler ortogonal değil, yazarların "pseudo-ortogonal" (sözde ortogonal) olarak adlandırdığı bir özelliğe sahiptir.

Sözde ortogonalliği anlamak için, bir fonksiyon $\hat f$ ’yi alıp öznitelik alt kümesi S için ALE grafiğine dönüştüren operatör $H_S$ ’yi tanımlamamız gerekir. Örneğin, $H_{1,2}$ operatörü, bir makine öğrenme modelini giriş olarak alır ve öznitelikler 1 ve 2 için 2D ALE grafiğini üretir: $H_{1,2}(\hat f)=\hat f_{ALE,12}$ . Aynı operatörü iki kez uygularsak, yine aynı ALE grafiğini elde ederiz. İlk olarak $H_{1,2}$ ’yi $f$ ’ye bir kez uyguladığımızda 2D ALE grafiği $\hat f_{ALE,12}$ ’yi elde ederiz. Daha sonra operatörü $f$ ’ye değil, $\hat f_{ALE,12}$ ’ye uygularız. Bu mümkündür çünkü 2D ALE bileşeni de bir fonksiyondur. Sonuç yine $\hat f_{ALE,12}$ ’dir; yani aynı operatörü birkaç kez uygulayabiliriz ve her zaman aynı ALE grafiğini elde ederiz. Bu, sözde ortogonalliğin ilk kısmıdır.

Peki farklı öznitelik kümeleri için iki farklı operatör uygularsak sonuç ne olur? Örneğin, $H_{1,2}$ ve $H_1$ , veya $H_{1,2}$ ve $H_{3,4,5}$ ? Cevap sıfırdır. Bir fonksiyona önce $H_S$ ALE operatörünü, sonra sonuç üzerinde $H_U$ operatörünü uygularsak (ve $S≠U$ ), sonuç sıfırdır. Diğer bir deyişle, bir ALE grafiğinin ALE grafiği sıfırdır, aynı ALE grafiği iki kez uygulanmadıkça. Başka bir ifadeyle, SS öznitelik kümesi için ALE grafiği başka herhangi bir ALE grafiğini içermez. Matematiksel bir ifade ile, ALE operatörü, fonksiyonları bir iç çarpım uzayının ortogonal alt uzaylarına eşler.

8.4.7 İstatistiksel Regresyon Modelleri

Bu yaklaşım, özellikle genelleştirilmiş toplamsal modeller (Generalized Additive Models - GAM) olmak üzere yorumlanabilir modellere bağlanır. Karmaşık bir fonksiyonu ayrıştırmak yerine, modelleme sürecine kısıtlamalar ekleyerek bireysel bileşenlerin kolayca okunmasını sağlayabiliriz. Ayrıştırma, yüksek boyutlu bir fonksiyonla başlayıp aşağı doğru ayrıştırdığımız bir üstten aşağı (top-down) yaklaşım olarak ele alınabilirken, genelleştirilmiş toplamsal modeller basit bileşenlerden başlayarak modeli oluşturduğumuz bir alttan yukarı (bottom-up) yaklaşım sağlar. Her iki yaklaşımın ortak noktası, bireysel ve yorumlanabilir bileşenler sunmayı amaçlamalarıdır.

İstatistiksel modellerde, bileşen sayısını sınırlayarak $2^p$ tüm bileşenlerin modele dahil edilmesi zorunluluğunu ortadan kaldırırız. Bunun en basit versiyonu doğrusal regresyondur:

\hat{f}(x) = \beta_0 + \beta_1 x_1 + \ldots \beta_p x_p

Formül, fonksiyonel ayrıştırmaya oldukça benzerdir, ancak iki büyük değişiklik içerir. Değişiklik 1: Tüm etkileşim etkileri çıkarılmıştır ve yalnızca sabit terim ve ana etkiler korunur. Değişiklik 2: Ana etkiler yalnızca özniteliklerde doğrusal olabilir:

$\hat f_j(j)=β_jx_j$

Doğrusal regresyon modeline fonksiyonel ayrıştırma perspektifinden bakıldığında, modelin, özniteliklerden hedefe giden gerçek fonksiyonun bir fonksiyonel ayrıştırmasını temsil ettiği görülür, ancak etkilerin doğrusal olduğu ve etkileşimlerin olmadığı gibi güçlü varsayımlar altında.

Genelleştirilmiş toplamsal model, splinler kullanarak daha esnek fonksiyonlara ( $\hat f_j$ ) izin vererek ikinci varsayımı gevşetir. Etkileşimler de eklenebilir, ancak bu işlem oldukça el ile yapılır. GA2M gibi yaklaşımlar, bir GAM’a otomatik olarak iki yönlü etkileşimler eklemeye çalışır.

Bir doğrusal regresyon modelini veya GAM’ı fonksiyonel ayrıştırma olarak düşünmek kafa karışıklığına neden olabilir. Eğer bu bölümün önceki kısımlarındaki ayrıştırma yaklaşımlarını (genelleştirilmiş fonksiyonel ANOVA ve birikimli yerel etkiler) uygularsanız, GAM’dan doğrudan okunan bileşenlerden farklı bileşenler elde edebilirsiniz. Bu, GAM’da korelasyonlu özniteliklerin etkileşim etkilerinin modellenmesi sırasında ortaya çıkabilir. Bu tutarsızlık, diğer fonksiyonel ayrıştırma yaklaşımlarının etkileşimler ve ana etkiler arasında etkileri farklı şekilde bölmesinden kaynaklanır.

Peki GAM’ları ne zaman kullanmalı, ne zaman karmaşık bir model ve ayrıştırmayı tercih etmelisiniz? Çoğu etkileşim sıfır olduğunda, özellikle üç veya daha fazla öznitelik içeren etkileşimler olmadığında, GAM’lara bağlı kalmalısınız. Eğer etkileşim içeren maksimum öznitelik sayısının iki ( $|S|≤2$ ) olduğunu biliyorsanız, MARS veya GA2M gibi yaklaşımlar kullanılabilir. Son olarak, test verilerindeki model performansı, GAM’ın yeterli olup olmadığını veya daha karmaşık bir modelin çok daha iyi performans gösterip göstermediğini gösterebilir.

8.4.8 Bonus: Kısmi Bağımlılık Grafiği Kısmi Bağımlılık Grafiği (PDP), bir fonksiyonel ayrıştırma sağlar mı? Kısa cevap: Hayır. Uzun cevap: Bir öznitelik kümesi SS için PDP, her zaman hiyerarşideki tüm etkileri içerir – örneğin, $\{1,2\}$ için PDP, yalnızca etkileşimi değil, aynı zamanda bireysel öznitelik etkilerini de içerir. Sonuç olarak, tüm alt kümeler için PDP’leri toplamak orijinal fonksiyonu vermez ve bu nedenle geçerli bir ayrıştırma değildir. Ancak, PDP’yi, belki de daha düşük etkileri çıkararak ayarlayabilir miyiz? Evet, yapabiliriz, ancak bu durumda fonksiyonel ANOVA’ya benzer bir şey elde ederiz. Ancak, tekdüze bir dağılım üzerinde entegrasyon yapmak yerine, PDP, $X_{-s}$ nin marjinal dağılımı üzerinde entegrasyon yapar, bu da Monte Carlo örneklemesi kullanılarak tahmin edilir.

8.4.9 Avantajlar Fonksiyonel ayrıştırmayı, makine öğrenimi yorumlanabilirliğinin temel bir kavramı olarak görüyorum.

Fonksiyonel ayrıştırma, yüksek boyutlu ve karmaşık makine öğrenimi modellerini bireysel etkiler ve etkileşimlere ayrıştırmak için teorik bir gerekçe sağlar – bireysel etkileri yorumlamamızı mümkün kılan bir adım. Fonksiyonel ayrıştırma, istatistiksel regresyon modelleri, ALE, (genelleştirilmiş) fonksiyonel ANOVA, PDP, H-istatistiği ve ICE eğrileri gibi tekniklerin temel fikridir.

Fonksiyonel ayrıştırma, diğer yöntemlerin daha iyi anlaşılmasını sağlar. Örneğin, permütasyon öznitelik önemi, bir öznitelik ile hedef arasındaki ilişkiyi koparır. Fonksiyonel ayrıştırma açısından bakıldığında, permütasyonun, özniteliğin yer aldığı tüm bileşenlerin etkisini "yıktığını" görebiliriz. Bu, özniteliğin ana etkisini ve diğer özniteliklerle olan tüm etkileşimlerini etkiler. Başka bir örnek olarak, Shapley değerleri bir tahmini, bireysel özniteliğin toplamsal etkilerine ayrıştırır. Ancak fonksiyonel ayrıştırma, ayrıştırmada etkileşim etkilerinin de olması gerektiğini söyler, peki onlar nerede? Shapley değerleri, etkilerin bireysel özniteliklere adil bir şekilde atanmasını sağlar, yani tüm etkileşimler de adil bir şekilde özniteliklere atanır ve bu nedenle Shapley değerleri arasında bölünür.

Bir araç olarak fonksiyonel ayrıştırma düşünüldüğünde, ALE grafikleri birçok avantaj sunar. ALE grafikleri, hızlı hesaplanabilir, yazılım uygulamalarına sahiptir (bkz. ALE bölümü) ve istenen pseudo-ortogonalite özelliklerine sahiptir.

8.4.10 Dezavantajlar Fonksiyonel ayrıştırma kavramı, iki öznitelik arasındaki etkileşimlerin ötesindeki yüksek boyutlu bileşenler için hızla sınırlarına ulaşır. Öznitelik sayısındaki bu üstel artış, yalnızca daha yüksek dereceli etkileşimlerin kolayca görselleştirilememesi nedeniyle uygulanabilirliği sınırlamakla kalmaz, aynı zamanda tüm etkileşimleri hesaplamak istersek hesaplama süresi de inanılmaz derecede uzun olur.

Her bir fonksiyonel ayrıştırma yönteminin kendine özgü dezavantajları vardır. Alttan yukarıya yaklaşım – regresyon modelleri oluşturma – oldukça manuel bir süreçtir ve tahmin performansını etkileyebilecek birçok model kısıtlaması getirir. Fonksiyonel ANOVA, bağımsız öznitelikler gerektirir. Genelleştirilmiş fonksiyonel ANOVA’nın tahmini oldukça zordur. Biriken yerel etki grafikleri, bir varyans ayrıştırması sağlamaz.

Fonksiyonel ayrıştırma yaklaşımı, tabular veri analizi için metin veya görüntülerden daha uygundur.

Previous8.3 Öznitelik Etkileşimi (Feature Interaction)Next8.5 Permütasyon Öznitelik Önemi (Permutation Feature Importance)

Last updated 5 months ago

Hadi hemen başlayalım ve belirli bir fonksiyona bakalım. Bu fonksiyon, giriş olarak iki öznitelik alır ve bir boyutlu bir çıktı üretir:

y = \hat{f}(x_1, x_2) = 2 + e^{x_1} - x_2 + x_1 \cdot x_2

Bu fonksiyonu bir makine öğrenimi modeli olarak düşünebilirsiniz. Fonksiyonu, bir 3D grafik veya kontur çizgileri içeren bir ısı haritasıyla görselleştirebiliriz:

\hat{f}(x_1, x_2) = \hat{f}_0 + \hat{f}_1(x_1) + \hat{f}_2(x_2) + \hat{f}_{1,2}(x_{1},x_{2})

Spoiler uyarısı: Bu ayrıştırma, bu bölümde daha sonra tartışacağımız biriken yerel etki grafikleri temel alınarak yapılmıştır.

8.4.1 Bileşenleri Hesaplamama Yöntemi I

\begin{align*} \hat{f}(x) = & \hat{f}_0 + \hat{f}_1(x_1) + \ldots + \hat{f}_p(x_p) \\ & + \hat{f}_{1,2}(x_1, x_2) + \ldots + \hat{f}_{1,p}(x_1, x_p) + \ldots + \hat{f}_{p-1,p}(x_{p-1}, x_p) \\ & + \ldots \\ & + \hat{f}_{1,\ldots,p}(x_1, \ldots, x_p) \end{align*}

\hat{f}(x) = \sum_{S\subseteq\{1,\ldots,p\}} \hat{f}_S(x_S)

(Genelleştirilmiş) Fonksiyonel ANOVA
Biriken Yerel Etkiler (ALE)
İstatistiksel regresyon modelleri

\hat{f}(x) = \sum_{S\subseteq\{1,\ldots,p\}} \hat{f}_S(x_S)

Hooker (2004), her bir bileşeni aşağıdaki formülle tanımlar:

f(x) = x * e^{2 pi i \xi x}

Tamam, bu ifadeyi parçalayalım. Bileşeni şu şekilde yeniden yazabiliriz:

\hat{f}_S(x) = \int_{X_{-S}} \left( \hat{f}(x)\right) d X_{-S} - \int_{X_{-S}} \left(\sum_{V \subset S} \hat{f}_V(x) \right) d X_{-S}

\hat{f}_0(x) = \int_{X} \hat{f}(x) dX

\hat{f}_1(x) = \int_{X_{-1}} \left( \hat{f}(x) - \hat{f}_0\right) d X_{-S}

$\hat f_{1,2}$ bileşeni için hesaplamayı tamamlamak adına her şeyi bir araya getirebiliriz:

\begin{align*}\hat{f}_{1,2}(x) &= \int_{X_{3,4}} \left( \hat{f}(x) - (\hat{f}_0(x) + \hat{f}_1(x) - \hat{f}_0 + \hat{f}_2(x) - \hat{f}_0)\right) d X_{3},X_4 \\ &= \int_{X_{3,4}} \left(\hat{f}(x) - \hat{f}_1(x) - \hat{f}_2(x) + \hat{f}_0\right) d X_{3},X_4 \end{align*}

Hooker (2004), fonksiyonel bileşenlerin bu tanımının şu arzu edilen aksiyomları karşıladığını göstermiştir:

Sıfır Ortalama: $\int{}\hat{f}_S(x_S)dX_s=0$ her $S≠∅$ .
Ortogonalite: $∫\hat f_S(x_S)\hat f_V(x_v)dX=0$ , $S≠V$ için
Varyans ayrıştırma: $\sigma^2_{\hat{f}}=\int \hat{f}(x)^2dX$ olsun, sonra $\sigma^2(\hat{f}) = \sum_{S \subseteq \{1,\ldots,p\}} \sigma^2_S(\hat{f}_S)$

Problems arise with the functional ANOVA when features are correlated. As a solution, the generalized functional ANOVA has been proposed.

$\hat{f}_S(x_S) = argmin_{g_S \in L^2(\mathbb{R}^S)_{S \in P}} \int \left(\hat{f}(x) - \sum_{S \subset P} g_S(x_S)\right)^2 w(x)dx.$

Ortogonalite yerine, bileşenler hiyerarşik bir ortogonalite koşulunu sağlar:

\forall \hat{f}_S(x_S)| S \subset U: \int \hat{f}_S(x_S) \hat{f}_U(x_U) w(x)dx = 0

8.4.6 Birikimli Yerel Etki (ALE) Grafikleri

8.4.7 İstatistiksel Regresyon Modelleri

İstatistiksel modellerde, bileşen sayısını sınırlayarak $2^p$ tüm bileşenlerin modele dahil edilmesi zorunluluğunu ortadan kaldırırız. Bunun en basit versiyonu doğrusal regresyondur:

\hat{f}(x) = \beta_0 + \beta_1 x_1 + \ldots \beta_p x_p

$\hat f_j(j)=β_jx_j$

8.4.9 Avantajlar Fonksiyonel ayrıştırmayı, makine öğrenimi yorumlanabilirliğinin temel bir kavramı olarak görüyorum.

Fonksiyonel ayrıştırma yaklaşımı, tabular veri analizi için metin veya görüntülerden daha uygundur.

Hooker, Giles. “Discovering additive structure in black box functions.” Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining. (2004).

Hooker, Giles. “Generalized functional anova diagnostics for high-dimensional functions of dependent variables.” Journal of Computational and Graphical Statistics 16.3 (2007): 709-732.

Apley, Daniel W., and Jingyu Zhu. “Visualizing the effects of predictor variables in black box supervised learning models.” Journal of the Royal Statistical Society: Series B (Statistical Methodology) 82.4 (2020): 1059-1086.

Caruana, Rich, et al. “Intelligible models for healthcare: Predicting pneumonia risk and hospital 30-day readmission.” Proceedings of the 21th ACM SIGKDD international conference on knowledge discovery and data mining. (2015).