Elif Beril Şayli, Mesh-Fabrıc Veri Ortamlarında Akıllı Veri Keşfi için Büyük Dil Modeli Tabanlı Konuşmaya Dayalı Analitik Sistem

Yüksek Lisans Adayı: Elif Beril Şayli
EABD: Bilişim Sistemleri
Tarih: 18.06.2026 / 15:00
Yer: A-212

Özet: Günümüzde modern organizasyonlar, geleneksel merkezi mimarilerin ölçeklenebilirlik ve çeviklik taleplerini karşılamakta zorlandığı, giderek karmaşıklaşan veri ortamlarında faaliyet göstermektedir. Bu ortamlarda kalıcı bir zorluk, metadata yönetimi ve sezgisel veri keşfidir. Bu zorluk özellikle, yabancı anahtar kısıtlamalarının açıkça tanımlanmadığı ham lakehouse depolama üzerinde doğal dil sorularının çalıştırılabilir sorgulara çevrilmesi gerektiğinde belirginleşir. Geleneksel veritabanı sistemleri kullanıcıların yapılandırılmış sorgu dillerini bilmesini gerektirir ve bu durum, teknik uzmanlığı olmayan paydaşlar için bir engel oluşturur.Bu tez, alanlar arası veri keşfi, zenginleştirme, kataloglama ve yapılandırmayı desteklemek için büyük dil modeli (LLM) tabanlı metadata ajanları kullanan ve doğal dil sorularını çıkarsanmış metadataya dayanan SQL sorgularına çeviren bir yaklaşım sunmaktadır. Amaç, Veri Ağı (Data Mesh) ve Veri Dokusu (Data Fabric) ilkelerinden faydalanılan bir mimari içinde, kataloglama ve şema keşfi için gereken manuel eforu azaltmaktır. Önerilen sistem, sürümlü ve makine tarafından okunabilir formatlarda saklanan yapılandırılmış çıktılar üretmek için LLM destekli üstveri çıkarımı ve ilişki çıkarsama sağlar. Bu yaklaşım, hem merkezi olmayan sahipliği hem de sistemler arası birlikte çalışabilirliği gerektiren ortamlarda, tutarlılık ve yeniden üretilebilirliği destekleyerek faydalı olur. Önerilen sistem; şema ve tablo üstverisini katalog ve sorgu katmanları aracılığıyla toplar ve bunları üstveri zenginleştirme ile LLM destekli SQL üretimi için kullanır.Yaklaşım, ilişki çıkarsama üstverisi olan ve olmayan konfigürasyonların karşılaştırıldığı kontrollü çok alanlı bir kıyaslama üzerinde değerlendirilmiştir. İlişki farkındalıklı konfigürasyon, belirli analitik sorgu desenlerinde istatistiksel olarak anlamlı bir doğruluk iyileşmesi elde etmiştir. Ayrıca, çoklu çalıştırma deneyleri ve sürümlü katalog durumu altında yapılan testlerlerde, sistemin tutarlı sonuçlar ürettiğini göstermiştir. Sonuçlar, sürümlü ve incelenebilir ilişki üstverisinin test edilen koşullar altında lakehouse ortamlarında doğal dilden SQL üretimini destekleyebileceğini göstermektedir.