Muhammet Esat Kalfaoğlu, Transformer Çözücüler ile Merkez Çizgisi Odaklı Yol Topolojisi Anlamlandırması için Çoklu Görüşlü Çok Kipli BEV Algısı

Doktora Adayı: Muhammet Esat Kalfaoğlu
EABD: Çokluortam Bilişimi
Tarih: 16.04.2026 / 14:00
Yer: A-212

Özet: Bu tez, merkez çizgisi odaklı temsiller ve bunların trafik unsurlarıyla ilişkileri üzerinden transformer tabanlı yol topolojisi anlama problemini incelemektedir. Temel problem, karmaşık kentsel sahnelerde geometri ve topolojiyi birlikte modellemektir; çünkü şerit bağlantıları ve şerit-trafik unsuru atamaları planlama kalitesini doğrudan etkilemektedir. Tez, ortak bir transformer-çözücü formülasyonu içinde üç tamamlayıcı faz geliştirmektedir: (i) yön bilgisiyle denetlenen ve maske-Bezier çıktı füzyonu içeren maske tabanlı kip, (ii) eğri regresyonunu güçlendiren Bezier güdümlü decoder dikkati ve (iii) geliştirilmiş genelleme protokolleri ile çoklu modalite uzantılarını içeren coğrafi olarak ayrık ve uzun menzil analizleri. Modelleme tarafında çalışma, anahtar nokta regresyonuna veya parametrik regresyona alternatif olarak maske kipini sunmakta, maske, Bezier ve fusion etkileşimlerini analiz etmekte ve dallar arası yardımcı denetimin hangi koşullarda yakınsamayı ve nihai topoloji kalitesini iyileştirdiğini göstermektedir. Decoder tasarımında çok noktalı deformable attention, Bezier-regresyon tabanlı çözücülere uyarlanmış; ayrıca Bezier kontrol noktalarını doğrudan yapısal örnekleme kılavuzu olarak kullanan Bezier Deformable Attention (BDA) önerilmiştir. Tez, topoloji odaklı optimizasyon için hibrit eşleme ve one-to-many yardımcı denetimi de incelemekte, ayrıca topoloji güven skorlarının değerlendirilmesindeki eşik kaynaklı yanlılığı azaltmak için score-remapping protokolünü standartlaştırmaktadır. Deneyler, OpenLane-V2 ve OpenLane-V1 üzerinde tutarlı eğitim ve değerlendirme ayarlarıyla yürütülmüştür. OpenLane-V2 (V1.1) üzerinde sadece kamera ile performans Subset-A’da 51.7 OLS ve Subset-B’de 54.3 OLS değerine ulaşarak aynı protokol altında her iki alt kümede de state-of-the-art sonuç vermektedir. Çoklu modalite füzyonu ile OLS, Subset-A’da 56.4’e (camera plus LiDAR) ve 58.4’e (camera plus LiDAR plus SDMap), Subset-B’de ise 61.7’ye (camera plus LiDAR) yükselmektedir. Coğrafi olarak ayrık Near-split değerlendirmesinde score remapping ile yaklaşım 28.5 OLS-l ile state-of-the-art performans elde ederken, sadece maske ve sadece Bezier varyantları 27.3 OLS-l değerine ulaşmaktadır. Bu sonuçlar, maske ve Bezier dallarının tamamlayıcı olduğunu, BDA’nın Bezier performansındaki temel itici unsur olduğunu ve çoklu kipli algılamanın özellikle zorlayıcı ve uzun menzilli koşullarda belirgin fayda sağladığı gözlemlenmiştir.