Yüksek Lisans Adayı: Deniz Kizaroğlu
EABD: Veri Bilişimi
Tarih: 05.01.2026 / 13:00
Yer: A-21
Özet: Büyük ölçekli görme-dil modellerinin az sayıda örnekle uyarlanması (few-shot adaptation), temel olarak bütüncül görüntü gömüleriyle eşleştirilen yumuşak istemlerin (soft prompts) öğrenilmesine dayanır. Bu global yaklaşım genel tanıma görevlerinde etkili olsa da, özelleşmiş görevler için gerekli olan ince ayrıntılı ve parça düzeyindeki öznitelikleri yakalamada yetersiz kalır. Bu tezde, global anlamsal tutarlılığı yerel ayırt edici uyumla uzlaştıran birleşik bir çerçeve öneriyoruz. Mimarimiz, standart CLIP tarzı bir global dalı, Değer-Değer (V-V) dikkat ve Optimal Taşıma (Optimal Transport - OT) ile yönlendirilen yenilikçi bir yerel yol ile birleştirir. V-V akışı tutarlı görsel yapıları çıkarırken, OT mekanizması belirgin görüntü yamaları ile sınıfa özgü yerel istemler arasında dengeli bir atama sağlayarak standart dikkat mekanizmalarında yaygın olan "istem çökmesini" (prompt collapse) önler. 11 veri setini kapsayan standart az örnekli kıyaslama kümesi (16-atışlı ViT-B/16) üzerindeki kapsamlı değerlendirmeler, yöntemimizin GalLoP ve PromptSRC gibi güçlü referans modelleri geride bırakarak %85.1 ortalama doğruluk ile literatürdeki en iyi performansa ulaştığını göstermektedir. Kazanımların doku ağırlıklı ve ince ayrıntılı veri setlerinde belirgin olması önerilen yerel modellemenin etkililiğini doğrulamaktadır. Ayrıca, özelleşme ve gürbüzlük (robustness) arasında kritik bir denge gözlemlenmiştir. Öğrenilebilir bir yerel izdüşüm dağılım içi (in-distribution) doğruluğu en üst düzeye çıkarırken, bunun kaldırılması Dağılım Dışı (OOD) tespit ölçütlerinde en iyi performansı gösteren yüksek kalibrasyonlu bir varyant ortaya çıkarmaktadır.
