3.4 Yorumlanabilirliğin Değerlendirilmesi

Yapay öğrenmede yorumalanabilirliğin ne olduğuna dair gerçek bir birlik yok, dolayısıyla nasıl ölçüleceğine dair de. Ancak, bununla ilgili bazı başlangıç seviyesinde araştırmalar mevcut.

Doshi-Velez ve Kim (2017) Yorumlanabilirlik Değerlendirmesi İçin Üç Ana Düzey Önerir:

Uygulama Düzeyi Değerlendirmesi (gerçek görev): Açıklamayı ürüne entegre edin ve son kullanıcı tarafından test edilmesini sağlayın. Örneğin, röntgenlerde kırıkları belirleyip işaretleyen bir yapay öğrenme bileşenine sahip bir kırık tespit yazılımını düşünelim. Uygulama düzeyinde, radyologlar kırık tespit yazılımını doğrudan test ederek modeli değerlendireceklerdir. Bu tür bir değerlendirme, iyi bir deneysel kurulum ve kaliteyi değerlendirme yöntemlerinin iyi anlaşılmasını gerektirir. Burada iyi bir kıyas noktası, bir insanın aynı kararı açıklama konusundaki başarısı olacaktır.

İnsan Düzeyi Değerlendirmesi (basit görev): İnsan düzeyi değerlendirmesi, uygulama düzeyi değerlendirmenin basitleştirilmiş bir versiyonudur. Farkı ise bu deneylerin alan uzmanlarıyla değil, sıradan bireylerle yapılmasıdır. Bu yaklaşım deneyleri daha ucuz hale getirir (özellikle alan uzmanları radyologlar olduğunda) ve daha fazla katılımcı bulmayı kolaylaştırır. Örneğin, bir kullanıcıya farklı açıklamalar gösterilebilir ve kullanıcı en iyi olanı seçebilir.

Fonksiyon Düzeyi Değerlendirmesi (temsil görev): Bu düzeyde insanlara gerek duyulmaz. Bu yöntem, kullanılan model sınıfı için daha önce bir insan düzeyi değerlendirme yapılmış olması durumunda en iyi şekilde çalışır. Örneğin, son kullanıcıların karar ağaçlarını anladığı biliniyor olabilir. Bu durumda, açıklama kalitesinin bir temsili olarak ağacın derinliği kullanılabilir. Kısa ağaçlar daha yüksek açıklanabilirlik puanı alacaktır. Bununla birlikte, ağacın öngörü performansının büyük bir ağaca göre fazla düşmemesi koşulunun eklenmesi mantıklı olacaktır.

Bir sonraki bölüm, bireysel tahminler için açıklamaların fonksiyon düzeyinde değerlendirilmesine odaklanmaktadır. Peki, açıklamaların değerlendirilmesinde dikkate alınması gereken temel özellikler nelerdir?

Last updated