Övgü Özdemir, Büyük Dil Modellerinin Görsel Soru Yanıtlama Yeteneklerinin Keşfedilmesi: Soru Odaklı Görüntü Altyazılarını İstem Olarak Kullanan Yeni Bir Yaklaşım
Görsel soru cevaplama (VQA), hem görsel hem de dil içeriğini anlamayı, akıl yürütmeyi ve çıkarım yapmayı gerektiren bütüncül bir yapay zeka görevi olarak tanımlanır. Son yıllarda sinirsel mimarilerdeki gelişmelere rağmen, sıfır-atış VQA, gelişmiş genelleme ve akıl yürütme becerileri gerektirdiğinden önemli bir zorluk olmaya devam etmektedir. Bu tez, yeni Büyük Dil Modellerinin (LLM) sıfır-atış görsel soru cevaplamadaki yeteneklerini keşfetmeyi amaçlamaktadır. Spesifik olarak, CogVLM, GPT-4 ve GPT-4o gibi çok modlu LLMlerin performansları, akıl yürütme yeteneğini ölçmek amacıyla çeşitli sorular içeren GQA veri setinde değerlendirilmiştir. VQA için, LLMlerden yararlanan ve ara adım olarak görüntü altyazılamayı entegre eden yeni bir çerçeve önerilmiştir. Ayrıca, farklı istem tekniklerinin VQA performansı üzerindeki etkisi incelenmiştir. Değerlendirmeler, anlamsal ve yapısal olarak farklılık gösteren sorular üzerinde gerçekleştirilmiştir. Bulgular, sıfır-atış koşullarında VQA performansını artırmak için görüntü altyazıları ve optimize edilmiş istemlerin kullanım potansiyelini vurgulamaktadır.
Tarih: 04.09.2024 / 13:30 Yer: A-212