8.3 Öznitelik Etkileşimi (Feature Interaction)
Öznitelikler bir tahmin modelinde birbiriyle etkileşime girdiğinde, tahmin, öznitelik etkilerinin toplamı olarak ifade edilemez, çünkü bir özniteliğin etkisi diğer özniteliğin değerine bağlıdır. Aristoteles’in “Bütün, parçalarının toplamından daha büyüktür” ifadesi, etkileşimlerin olduğu durumlarda geçerlidir.
8.3.1 Öznitelik Etkileşimi? Eğer bir yapay öğrenimi modeli iki özniteliğe dayalı olarak tahmin yapıyorsa, bu tahmini dört terime ayırabiliriz: bir sabit terim, birinci öznitelik için bir terim, ikinci öznitelik için bir terim ve iki öznitelik arasındaki etkileşim için bir terim. İki öznitelik arasındaki etkileşim, bireysel öznitelik etkileri dikkate alındıktan sonra özniteliklerin değiştirilmesiyle tahminde meydana gelen değişikliktir.
Örneğin, bir model bir evin değerini, evin büyüklüğü (büyük veya küçük) ve konumu (iyi veya kötü) gibi öznitelikleri kullanarak tahmin eder ve bu dört olası tahmin verir:
good
big
300,000
good
small
200,000
bad
big
250,000
bad
small
150,000
Model tahminini şu parçalara ayırıyoruz: Bir sabit terim (150.000), büyüklük özniteliği için bir etki (+100.000 eğer büyükse; +0 eğer küçükse) ve konum için bir etki (+50.000 eğer iyiyse; +0 eğer kötüyse). Bu ayrıştırma model tahminlerini tamamen açıklar. Etkileşim etkisi yoktur, çünkü model tahmini büyüklük ve konum için tekil öznitelik etkilerinin toplamıdır. Küçük bir evi büyük yaptığınızda, tahmin her zaman 100.000 artar, konumdan bağımsız olarak. Ayrıca, iyi ve kötü bir konum arasındaki tahmin farkı, büyüklükten bağımsız olarak 50.000’dir.
Şimdi bir etkileşim içeren bir örneğe bakalım:
good
big
400,000
good
small
200,000
bad
big
250,000
bad
small
150,000
Tahmin tablosunu şu parçalara ayırıyoruz: bir sabit terim (150.000), büyüklük özniteliği için bir etki (+100.000 eğer büyükse, +0 eğer küçükse) ve konum için bir etki (+50.000 eğer iyiyse, +0 eğer kötüyse). Bu tablo için ek olarak bir etkileşim terimine ihtiyaç duyuyoruz: +100.000 eğer ev büyük ve iyi bir konumdaysa. Bu, büyüklük ve konum arasındaki bir etkileşimdir, çünkü bu durumda büyük bir ev ile küçük bir ev arasındaki tahmin farkı konuma bağlıdır.
Etkileşim gücünü tahmin etmenin bir yolu, tahmin varyasyonunun ne kadarının özniteliklerin etkileşiminden kaynaklandığını ölçmektir. Bu ölçüme H-istatistiği denir ve Friedman ve Popescu (2008) tarafından tanıtılmıştır.
8.3.2 Teori: Friedman’ın H-İstatistiği İki durumu ele alacağız: Birincisi, modelde iki özniteliğin birbiriyle etkileşime girip girmediğini ve ne ölçüde etkileşime girdiklerini belirten iki yönlü etkileşim ölçüsü; ikincisi, bir özniteliğin modeldeki diğer tüm özniteliklerle etkileşime girip girmediğini ve ne ölçüde etkileşime girdiğini belirten toplam etkileşim ölçüsü. Teorik olarak, herhangi bir sayıdaki öznitelik arasındaki etkileşim ölçülebilir, ancak bu iki durum en ilginç olanlardır.
Eğer iki öznitelik etkileşime girmiyorsa, kısmi bağımlılık fonksiyonunu şu şekilde ayrıştırabiliriz (kısmi bağımlılık fonksiyonlarının sıfırda merkezlendiğini varsayarak):
Burada her iki özniteliğin (2-yönlü) kısmi bağımlılık fonksiyonu, ve ise tekil özniteliklerin kısmi bağımlılık fonksiyonlarıdır.
Benzer şekilde, bir özniteliğin diğer özniteliklerle hiçbir etkileşimi yoksa, tahmin fonksiyonunu , kısmi bağımlılık fonksiyonlarının toplamı olarak ifade edebiliriz. İlk terim yalnızca j'ye, ikinci terim ise j'den başka tüm özniteliklere bağlıdır:
Burada , j-inci öznitelik hariç tüm özniteliklere bağlı olan kısmi bağımlılık fonksiyonudur.
Bu ayrıştırma, kısmi bağımlılık (veya tam tahmin) fonksiyonunu, öznitelikler jj ve kk arasında ya da sırasıyla jj ile diğer tüm öznitelikler arasında etkileşim olmadan ifade eder. Bir sonraki adımda, gözlemlenen kısmi bağımlılık fonksiyonu ile etkileşim olmayan ayrıştırılmış fonksiyon arasındaki farkı ölçeriz. İki öznitelik arasındaki etkileşimi ölçmek için kısmi bağımlılık çıktısının varyansını veya bir öznitelik ile diğer tüm öznitelikler arasındaki etkileşimi ölçmek için tüm fonksiyonun varyansını hesaplarız. Etkileşim tarafından açıklanan varyans miktarı (gözlemlenen ve etkileşim olmayan PD arasındaki fark), etkileşim gücü istatistiği olarak kullanılır. Eğer hiç etkileşim yoksa istatistik 0 olur, eğer veya nin varyansının tamamı kısmi bağımlılık fonksiyonlarının toplamı tarafından açıklanıyorsa istatistik 1 olur. İki öznitelik arasındaki etkileşim istatistiğinin 1 olması, her bir kısmi bağımlılık fonksiyonunun sabit olduğu ve tahmin üzerindeki etkinin yalnızca etkileşimden geldiği anlamına gelir. H-istatistiği 1’den büyük de olabilir, bu daha zor yorumlanır. Bu durum, iki yönlü etkileşimin varyansı, iki boyutlu kısmi bağımlılık grafiğinin varyansından daha büyük olduğunda meydana gelebilir.
Friedman ve Popescu tarafından öznitelik j ve k arasındaki etkileşim için önerilen H-istatistiği matematiksel olarak şu şekilde ifade edilir:
Aynısı, bir öznitelik ( j )'nin herhangi bir diğer öznitelikle etkileşime girip girmediğini ölçmek için de geçerlidir:
H-istatistiğinin hesaplanması maliyetlidir, çünkü tüm veri noktaları üzerinde yineleme yapar ve her noktada kısmi bağımlılık değerlendirilir, bu da tüm nn veri noktalarıyla yapılır. En kötü durumda, iki yönlü H-istatistiğini (j ve k karşılaştırması) hesaplamak için makine öğrenimi modelinin tahmin fonksiyonuna çağrı yapmamız gerekir, toplam H-istatistiği (j ve tüm diğerleri karşılaştırması) için ise çağrı gerekir. Hesaplamayı hızlandırmak için n veri noktalarından örnekleme yapabiliriz. Ancak bu, kısmi bağımlılık tahminlerinin varyansını artırarak H-istatistiğini kararsız hale getirir. Bu nedenle, hesaplama yükünü azaltmak için örnekleme kullanıyorsanız, yeterli sayıda veri noktası örneklediğinizden emin olun.
Friedman ve Popescu ayrıca, H-istatistiğinin sıfırdan anlamlı derecede farklı olup olmadığını değerlendirmek için bir test istatistiği önermektedir. Sıfır hipotezi, etkileşim olmadığı varsayımıdır. Sıfır hipotezi altında etkileşim istatistiğini oluşturmak için, modeli öznitelik j ve k arasında veya tüm diğerleri arasında hiçbir etkileşim olmayacak şekilde ayarlayabilmeniz gerekir. Bu, tüm model türleri için mümkün değildir. Bu nedenle, bu test model-özel olup modelden bağımsız değildir ve bu bağlamda burada ele alınmamaktadır.
Etkileşim gücü istatistiği, tahmin bir olasılık ise, sınıflandırma durumunda da uygulanabilir.
8.3.3 Örnekler Hadi öznitelik etkileşimlerinin pratikte nasıl göründüğüne bakalım! Hava durumu ve takvimsel özniteliklere dayalı olarak kiralanan bisiklet sayısını tahmin eden bir destek vektör makinesindeki özniteliklerin etkileşim gücünü ölçüyoruz. Aşağıdaki grafik, öznitelik etkileşim H-istatistiğini göstermektedir:
Bir sonraki örnekte, bir sınıflandırma problemi için etkileşim istatistiğini hesaplıyoruz. Bazı risk faktörlerine dayalı olarak rahim ağzı kanserini tahmin etmek için eğitilmiş bir rastgele orman modelindeki öznitelikler arasındaki etkileşimleri analiz ediyoruz.
Her bir özniteliğin diğer tüm özniteliklerle olan etkileşimlerine baktıktan sonra, özniteliklerden birini seçebilir ve seçilen öznitelik ile diğer öznitelikler arasındaki iki yönlü etkileşimleri daha derinlemesine inceleyebiliriz.
8.3.4 Avantajlar Etkileşim H-istatistiği, kısmi bağımlılık ayrıştırması yoluyla teorik bir temele sahiptir.
H-istatistiğinin anlamlı bir yorumu vardır: Etkileşim, varyansın etkileşim tarafından açıklanan payı olarak tanımlanır.
İstatistik boyutsuzdur, bu nedenle öznitelikler arasında ve hatta modeller arasında karşılaştırılabilir.
İstatistik, belirli biçiminden bağımsız olarak her türlü etkileşimi tespit eder.
H-istatistiği ile 3 veya daha fazla öznitelik arasındaki etkileşim gücü gibi keyfi yüksek etkileşimleri analiz etmek de mümkündür.
8.3.5 Dezavantajlar İlk fark edeceğiniz şey: Etkileşim H-istatistiğini hesaplamak uzun sürer, çünkü hesaplaması maliyetlidir.
Hesaplama, marjinal dağılımların tahminini içerir. Bu tahminler, tüm veri noktalarını kullanmazsak belirli bir varyansa sahiptir. Bu, veri noktalarını örnekledikçe, tahminlerin her çalışmada değişebileceği ve sonuçların kararsız olabileceği anlamına gelir. Kararlı bir sonuç elde etmek için yeterli veriye sahip olup olmadığınızı görmek için H-istatistiği hesaplamasını birkaç kez tekrarlamanızı öneririm.
Bir etkileşimin 0’dan anlamlı derecede büyük olup olmadığı belirsizdir. Bunun için bir istatistiksel test yapmamız gerekir, ancak bu testin modelden bağımsız bir versiyonu (henüz) mevcut değildir.
Test sorununa gelince, H-istatistiğinin bir etkileşimi “güçlü” kabul etmemiz için ne kadar büyük olması gerektiğini söylemek zordur.
Ayrıca, H-istatistiği 1’den büyük olabilir, bu da yorumu zorlaştırır.
Eğer iki özniteliğin toplam etkisi zayıfsa, ancak çoğunlukla etkileşimlerden oluşuyorsa, H-istatistiği çok büyük olacaktır. Bu tür hatalı etkileşimler, H-istatistiğinin küçük bir payda gerektirdiği durumlarda ortaya çıkar ve öznitelikler ilişkilendirildiğinde daha da kötüleşir. Gerçekte her iki öznitelik de modelde küçük bir rol oynarken, hatalı bir etkileşim kolayca güçlü bir etkileşim etkisi olarak aşırı yorumlanabilir. Olası bir çözüm, H-istatistiğinin payının karekökü olan normalize edilmemiş versiyonunu görselleştirmektir. Bu, özellikle regresyon için H-istatistiğini yanıtın aynı seviyesine ölçeklendirir ve hatalı etkileşimlere daha az vurgu yapar.
H-istatistiği bize etkileşimlerin gücünü söyler, ancak etkileşimlerin nasıl göründüğünü söylemez. Bunun için kısmi bağımlılık grafikleri kullanılır. Anlamlı bir çalışma akışı, etkileşim güçlerini ölçmek ve ardından ilgilendiğiniz etkileşimler için 2D kısmi bağımlılık grafikleri oluşturmaktır.
H-istatistiği, girdiler piksel olduğunda anlamlı bir şekilde kullanılamaz. Bu nedenle teknik, görüntü sınıflandırıcılar için kullanışlı değildir.
Etkileşim istatistiği, özniteliklerin bağımsız olarak karıştırılabileceği varsayımıyla çalışır. Eğer öznitelikler güçlü bir şekilde ilişkilendirilmişse, bu varsayım ihlal edilir ve gerçekte çok düşük olasılıkla karşılaşılacak öznitelik kombinasyonları üzerinden entegrasyon yapılır. Bu, kısmi bağımlılık grafikleriyle aynı sorundur. İlişkili öznitelikler, H-istatistiğinin büyük değerlere ulaşmasına neden olabilir.
Bazen sonuçlar garip olur ve küçük simülasyonlar beklenen sonuçları vermez. Ancak bu daha çok anekdot niteliğinde bir gözlemdir.
8.3.6 Uygulamalar Bu kitaptaki örnekler için CRAN'da ve GitHub'da geliştirme sürümü bulunan R iml paketini kullandım. Belirli modellere odaklanan başka uygulamalar da vardır. R paketi pre, RuleFit ve H-istatistiğini uygular. R paketi gbm, gradient boosted modelleri ve H-istatistiğini uygular.
8.3.7 Alternatifler H-istatistiği, etkileşimleri ölçmenin tek yolu değildir.
Hooker (2004) tarafından önerilen Değişken Etkileşim Ağları (VIN), tahmin fonksiyonunu ana etkiler ve öznitelik etkileşimlerine ayıran bir yaklaşımdır. Öznitelikler arasındaki etkileşimler daha sonra bir ağ olarak görselleştirilir. Ne yazık ki henüz bu yöntem için bir yazılım mevcut değildir.
Greenwell ve arkadaşları (2018) tarafından önerilen kısmi bağımlılığa dayalı öznitelik etkileşimi, iki öznitelik arasındaki etkileşimi ölçer. Bu yaklaşım, bir özniteliğin diğer özniteliğin farklı sabit noktalarındaki koşullu öznitelik önemini (kısmi bağımlılık fonksiyonunun varyansı olarak tanımlanan) ölçer. Eğer varyans yüksekse, öznitelikler birbiriyle etkileşir; eğer sıfırsa, etkileşmez. İlgili R paketi vip, GitHub'da mevcuttur. Bu paket ayrıca kısmi bağımlılık grafikleri ve öznitelik önemini de kapsar.
Friedman, Jerome H, and Bogdan E Popescu. “Predictive learning via rule ensembles.” The Annals of Applied Statistics. JSTOR, 916–54. (2008).↩︎
Inglis, Alan, Andrew Parnell, and Catherine Hurley. “Visualizing Variable Importance and Variable Interaction Effects in Machine Learning Models.” arXiv preprint arXiv:2108.04310 (2021).↩︎
Hooker, Giles. “Discovering additive structure in black box functions.” Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining. (2004).↩︎
Greenwell, Brandon M., Bradley C. Boehmke, and Andrew J. McCarthy. “A simple and effective model-based variable importance measure.” arXiv preprint arXiv:1805.04755 (2018).↩︎
Last updated