Yorumlanabilir Makine Öğrenmesi
  • Yorumlanabilir Yapay Öğrenme
  • Bölüm 1 - Yazarın Önsözü
  • Bölüm 1.1 Çevirmenin Önsözü
  • Bölüm 2 - Giriş
    • 2.1 Hikaye Zamanı
    • 2.2 Makine Öğrenmesi Nedir?
    • 2.3 Terminoloji
  • 3. Yorumlanabilirlik
    • 3.1 Yorumlanabilirliğin Önemi
    • 3.2 Yorumlanabilirlik Yöntemlerinin Sınıflandırılması
    • 3.3 Yorumlanabilirliğin Kapsamı
    • 3.4 Yorumlanabilirliğin Değerlendirilmesi
    • 3.5 Açıklamaların Özellikleri
    • 3.6 İnsan Dostu Açıklamalar
  • 4 Veri Setleri
    • 4.1 Bisiklet Kiralama (Bike Rentals)- Regresyon
    • 4.2 Youtube Spam Yorumları (Metin Sınıflandırma)
    • 4.3 Rahim Ağzı Kanseri Risk Faktörleri (Sınıflandırma)
  • 5. Yorumlanabilir Modeller
    • 5.1 Doğrusal Regresyon (Linear Regression)
    • 5.2 Lojistik Regresyon (Logistic Regression)
    • 5.3 GLM, GAM ve Fazlası
    • 5.4 Karar Ağaçları (Decision Tre)
    • 5.5 Karar Kuralları (Decision Rules)
    • 5.6 RuleFit
    • 5.7 Diğer Yorumlanabilir Modeller
  • 6. Model Agnostik Metotlar (Model-Agnostic Methods)
  • 7. Örnek Tabanlı Açıklamalar (Example-Based Explanations)
  • 8.Küresel Model Agnostik Metotlar (Global Model-Agnostic Methods)
    • 8.1 Kısmi Bağımlılık Grafiği - Partial Dependency Plot
    • 8.2. Biriktirilmiş Yerel Etki (Accumulated Local Effects-ALE) Grafikleri
    • 8.3 Öznitelik Etkileşimi (Feature Interaction)
    • 8.4 Fonksiyonel Ayrıştırma (Functional Decomposition)
    • 8.5 Permütasyon Öznitelik Önemi (Permutation Feature Importance)
    • 8.6 Küresel Vekil Modeli (Global Surrogate)
    • 8.7 Prototipler ve Eleştiriler (Prototypes and Criticisms)
  • 9. Yerel Modelden Bağımsız Yöntemler (Local Model-Agnostic Methods)
    • 9.1 Bireysel Koşullu Beklenti (Individual Conditional Expectation)
    • 9.2 Yerel Vekil (Local Surrogate) (LIME)
    • 9.3 Karşıt Gerçekçi Açıklamalar (Counterfactual Explanations)
    • 9.4 Kapsamlı Kurallar (Scoped Rules (Anchors))
    • 9.5 Shapley Değerleri (Shapley Values)
    • 9.6 SHAP (SHapley Additive exPlanations)
  • 10. Sinir Ağları Yorumlaması
    • 10.1 Öğrenilmiş Özellikler (Learned Features)
    • 10.2 Piksel İlişkilendirmesi (Pixel Attribution)
    • 10.3 Kavramları Belirleme (Detecting Concepts)
    • 10.4 Kötü Amaçlı Örnekler (Adversarial Examples)
    • 10.5 Etkili Örnekler (Influential Instances)
  • 11. Kristal Küreye Bir Bakış
    • 11.1 Makine Öğrenmesinin Geleceği
      • 11.2 Yorumlanabilirliğin Geleceği
  • 12. Teşekkürler
  • Referanslar
  • Kullanılan R paketleri
Powered by GitBook
On this page
  1. 9. Yerel Modelden Bağımsız Yöntemler (Local Model-Agnostic Methods)

9.1 Bireysel Koşullu Beklenti (Individual Conditional Expectation)

Previous9. Yerel Modelden Bağımsız Yöntemler (Local Model-Agnostic Methods)Next9.2 Yerel Vekil (Local Surrogate) (LIME)

Last updated 5 months ago

Bireysel Koşullu Beklenti (ICE) grafikleri, bir özelliğin değeri değiştiğinde, her bir örnek için tahminin nasıl değiştiğini gösteren bir çizgi sağlar.

Bir özelliğin ortalama etkisi için Partial Dependence Plot (PDP) küresel bir yöntemdir, çünkü belirli örneklere değil, genel bir ortalamaya odaklanır. Bireysel veri örnekleri için PDP’nin karşılığı, Bireysel Koşullu Beklenti (ICE) grafiği olarak adlandırılır (Goldstein ve arkadaşları, 2017). ICE grafiği, bir özelliğin tahmin üzerindeki bağımlılığını her bir örnek için ayrı ayrı görselleştirir ve bu da her bir örnek için bir çizgi ile sonuçlanır. PDP'de ise tek bir ortalama çizgi bulunur. PDP, bir ICE grafiğindeki çizgilerin ortalamasıdır.

Bir çizginin (ve bir örneğin) değerleri, diğer tüm özellikleri sabit tutarak, bu örneğin varyantlarını oluşturup, özelliğin değerini bir ızgaradan alınan değerlerle değiştirerek ve bu yeni oluşturulan örnekler için kara kutu modelle tahminler yaparak hesaplanabilir. Sonuç, bir örnek için ızgaradan alınan özellik değeri ve ilgili tahminlerle bir nokta kümesidir.

Bireysel beklentilere neden bakılmalı?

Bireysel beklentilere bakmak, PDP'nin gözden kaçırabileceği heterojen bir ilişkiyi ortaya çıkarabilir. PDP'ler, bir özellik ile tahmin arasındaki ortalama ilişkiyi gösterebilir. Ancak bu, yalnızca PDP'nin hesaplandığı özellik ile diğer özellikler arasındaki etkileşimler zayıf olduğunda iyi çalışır. Eğer etkileşimler varsa, ICE grafiği çok daha fazla içgörü sağlayabilir.

Daha resmi bir tanım:

ICE grafikleri, her bir örnek için, {(xS(i),xC(i))}i=1N\{(x_{S}^{(i)},x_{C}^{(i)})\}_{i=1}^N {(xS(i)​,xC(i)​)}i=1N​, f^s(i)\hat f_s^ {(i)} f^​s(i)​ eğrisinin xs(i)x_s^{(i)}xs(i)​'ye karşı xC(i)x_C^{(i)}xC(i)​çizidirlmesiyle elde edilir.

9.1.1 Örnekler

Serviks kanseri veri setine geri dönelim ve her bir örnek için tahminin "Yaş" özelliğiyle nasıl ilişkili olduğunu inceleyelim. Bu analizde, bir kadının risk faktörlerine dayanarak kanser olasılığını tahmin eden bir rastgele orman modeli kullanacağız. Partial Dependence Plot (PDP)'da, kanser olasılığının 50 yaş civarında arttığını gördük, ancak bu veri setindeki her kadın için doğru mu? ICE grafiği, çoğu kadın için yaş etkisinin, 50 yaşında bir artış gösteren ortalama deseni takip ettiğini ortaya koyuyor. Ancak bazı istisnalar var: Genç yaşta yüksek tahmin edilen kanser olasılığına sahip az sayıda kadın için, tahmin edilen kanser olasılığı yaşla birlikte çok fazla değişmiyor.

Bir sonraki şekil, bisiklet kiralama tahminine ait ICE grafiklerini göstermektedir. Bu grafikte kullanılan tahmin modeli, bir rastgele orman (random forest) modelidir.

{(xS(i),xC(i))}i=1N\{(x_{S}^{(i)},x_{C}^{(i)})\}_{i=1}^N {(xS(i)​,xC(i)​)}i=1N​

Tüm eğriler aynı yolu izliyormuş gibi görünüyor, dolayısıyla belirgin bir etkileşim bulunmuyor. Bu da PDP'nin, görüntülenen özellikler ile tahmin edilen bisiklet sayısı arasındaki ilişkileri özetlemek için zaten iyi bir yöntem olduğunu gösteriyor.

9.1.1.1 Merkezlenmiş ICE Grafiği

ICE grafikleriyle ilgili bir sorun, bireyler arasındaki eğrilerin farklı tahminlerle başlaması nedeniyle farklılık gösterip göstermediğini anlamanın zor olabilmesidir. Basit bir çözüm, eğrileri bir özelliğin belirli bir noktasında merkezlemek ve sadece bu noktaya olan tahmin farkını göstermektir. Ortaya çıkan grafik, merkezlenmiş ICE grafiği (c-ICE) olarak adlandırılır. Eğrileri özelliğin alt sınırına sabitlemek iyi bir seçimdir. Yeni eğriler şu şekilde tanımlanır:

f^cent(i)=f^(i)−1f^(xa,xC(i))\hat{f}_{cent}^{(i)}=\hat{f}^{(i)}-\mathbf{1}\hat{f}(x^{a},x^{(i)}_{C}) f^​cent(i)​=f^​(i)−1f^​(xa,xC(i)​)

Burada 1, uygun sayıda boyuta sahip (genellikle bir veya iki) birler vektörüdür, f^\hat{f}f^​, öğrenilmiş (eğitilmiş) modeldir, xax^axa sabitleme noktasıdır (anchor point).

9.1.1.2 Örnek

Örneğin, serviks kanseri için yaş özelliğine ait ICE grafiğini ele alalım ve eğrileri gözlemlenen en genç yaşa göre merkezleyelim.

Merkezlenmiş ICE grafikleri, bireysel örneklerin eğrilerini karşılaştırmayı kolaylaştırır. Bu, tahmin edilen bir değerin mutlak değişimini değil, bir özellik aralığının sabit bir noktasına kıyasla tahmindeki farkı görmek istediğimiz durumlarda faydalı olabilir.

Şimdi, bisiklet kiralama tahmini için merkezlenmiş ICE grafiklerine bakalım:

9.1.1.3 Türev ICE Grafiği (Derivative ICE Plot)

Heterojenliği görsel olarak daha kolay fark etmenin bir başka yolu, bir özelliğe göre tahmin fonksiyonunun bireysel türevlerine bakmaktır. Ortaya çıkan grafik, türev ICE grafiği (d-ICE) olarak adlandırılır.

Bir fonksiyonun (veya eğrinin) türevleri, değişikliklerin olup olmadığını ve hangi yönde gerçekleştiğini gösterir. Türev ICE grafiği ile, kara kutu tahminlerinin (en azından bazı) örnekler için değiştiği özellik değer aralıklarını kolayca tespit edebilirsiniz.

Eğer analiz edilen özellik xsx_sxs​ ile diğer özellikler xcx_cxc​ arasında bir etkileşim yoksa, tahmin fonksiyonu şu şekilde ifade edilebilir:

f^(x)=f^(xS,xC)=g(xS)+h(xC),withδf^(x)δxS=g′(xS)\hat{f}(x)=\hat{f}(x_S,x_C)=g(x_S)+h(x_C),\quad\text{with}\quad\frac{\delta\hat{f}(x)}{\delta{}x_S}=g'(x_S) f^​(x)=f^​(xS​,xC​)=g(xS​)+h(xC​),withδxS​δf^​(x)​=g′(xS​)

Eğer etkileşimler yoksa, bireysel kısmi türevler tüm örnekler için aynı olmalıdır. Eğer türevler farklılık gösteriyorsa, bu etkileşimlerden kaynaklanır ve türev ICE (d-ICE) grafiğinde görünür hale gelir. Tahmin fonksiyonunun SS özelliğine göre türevinin bireysel eğrilerini göstermekle birlikte, türevin standart sapmasını da göstermek, SS özelliğindeki heterojenlik bölgelerini vurgulamaya yardımcı olur. Ancak, türev ICE grafiğinin hesaplanması uzun sürer ve oldukça pratik değildir.

9.1.2 Avantajlar

Bireysel koşullu beklenti eğrileri (ICE), partial dependence plotlara (PDP) kıyasla daha sezgisel bir şekilde anlaşılabilir. Bir çizgi, ilgi özelliği değiştirildiğinde bir örnek için yapılan tahminleri temsil eder.

Partial dependence plotlardan farklı olarak, ICE eğrileri heterojen ilişkileri ortaya çıkarabilir.

9.1.3 Dezavantajlar

ICE eğrileri yalnızca bir özelliği anlamlı bir şekilde gösterebilir, çünkü iki özellik birden fazla üst üste binen yüzeylerin çizilmesini gerektirir ve grafikte bir şey görmek mümkün olmaz.

ICE eğrileri, PDP'lerle aynı sorundan muzdariptir: İlgi özelliği diğer özelliklerle ilişkiliyse, çizgilerdeki bazı noktalar, özelliklerin ortak dağılımına göre geçersiz veri noktaları olabilir.

Çok sayıda ICE eğrisi çizilirse, grafik aşırı kalabalık hale gelir ve bir şey göremezsiniz. Çözüm: Çizgilere biraz şeffaflık eklemek veya yalnızca çizgilerin bir örneklemini çizmek.

ICE grafiklerinde ortalamayı görmek zor olabilir. Basit çözüm: Bireysel koşullu beklenti eğrilerini partial dependence plot ile birleştirmek.

9.1.4 Yazılım ve Alternatifler

ICE grafikleri, R paketlerinden iml (bu örneklerde kullanılmıştır), ICEbox ve pdp'de uygulanmıştır. ICE’ye çok benzeyen bir şey yapan bir diğer R paketi condvis’dir. Python’da, partial dependence plotlar scikit-learn 0.24.0 ve sonraki sürümlerde yerleşik olarak mevcuttur.


Goldstein, Alex, Adam Kapelner, Justin Bleich, and Emil Pitkin. “Peeking inside the black box: Visualizing statistical learning with plots of individual conditional expectation.” journal of Computational and Graphical Statistics 24, no. 1 (2015): 44-65.

Goldstein, Alex, Adam Kapelner, Justin Bleich, and Maintainer Adam Kapelner. “Package ‘ICEbox’.” (2017).

↩︎
↩︎
Figür 9.1: Yaş tarafından servikal kanser olasılığının ICE grafiği. Her çizgi bir kadını temsil eder. Çoğu kadın için tahmin edilen kanser olasılığı yaş arttıkça artar. Tahmin edilen kanser olasılığı 0.4'in üzerinde olan bazı kadınlarda, yüksek yaşta tahmin değişmez.
Figür 9.2: Hava koşullarına göre tahmin edilen bisiklet kiralamaları için ICE grafikler. Kısmi bağımlılık grafiklerinde gözlemlenen aynı etkiler gözlemlenebilir.
Figür 9.3: Yaş tarafından tahmin edilen kanser olasılığı için merkezlenmiş ICE grafiği. Çizgiler, 14 yaşında 0'a sabitlenmiştir. 14 yaşına kıyasla, çoğu kadın için tahminler 45 yaşına kadar değişmeden kalır ve tahmin edilen olasılık artar.
Figür 9.4: Hava koşullarına göre tahmin edilen bisiklet sayısı için merkezlenmiş ICE grafikler. Çizgiler, ilgili özellik değerinin gözlemlenen minimumundaki tahmin ile karşılaştırıldığında tahminde oluşan farkı gösterir.