ODTÜ DERLEM

ODTÜ Türkçe Derlem (OTD)

ODTÜ Türkçe Derlem, 1990 sonrası yazılan Türkçe metin örneklerini içeren 2 milyon kelimelik bir derlemedir. Derlemin bir alt kümesi, “ODTÜ-Sabancı Türkçe’nin Ağaç Yapısı” derleminde kullanılmaktadır. ODTÜ Türkçe Derlem tipografik düzeyde etiketlenmiş XCES'dir. Derlemin dağıtımı aynı zamanda bir sorgulama programını ve ilgili yayınları içermektedir. ODTÜ Türkçe Derlem 10 farklı türde metinden alınmıştır. Bir kaynaktan en fazla 2 örnek kullanılır; Her örnek 2000 kelimedir veya bir sonraki cümle sona erdiğinde örnek biter. ODTÜ Türkçe Derlem, yalnızca araştırma amaçlı olarak dünyanın dört bir yanındaki araştırmacıların ücretsiz kullanımına açıktır. Ayrı bir projede (ODTÜ-Metin Düzeyinde İşaretlenmiş Derlem Projesi), derlemin bir bölümünde söylem işaretlemesi yapılmıştır. ODTÜ-Metin Düzeyinde İşaretlenmiş Derlem Projesi internet sitesine buradan ulaşılabilir.

ODTÜ-Sabancı Türkçe’nin Ağaç Yapılı Derlemi

ODTÜ-Sabancı Türkçe’nin Ağaç Yapısı Derlemi 7262 cümlenin, biçimsel ve sözdizimsel olarak işaretlenmiş bir ağaç yapılı derlemidir. Cümleler, ODTÜ Türkçe Derlemi’nden alınmıştır. ODTÜ-Sabanci Türkçe Ağaç Yapılı Derlem ve ODTÜ Türkçe Derlem'deki farklı türlerin yüzdeleri aynı tutulmuştur. ODTÜ-Sabancı Türkçe Ağaç Yapılı Derlem XML tabanlıdır. Ağaç Yapılı Derlem'in dağıtımı bir kullanım kılavuzu, bir görüntüleme programı ve ilgili yayınları içerir. Türkçe, serbest sözcük sıralamasına sahip olan sondan eklemeli bir dildir. Türkçe’nin kendine özgü yapısını ele almaya yönelik bir bağımlılık şeması seçilmiştir. Şemada, sözcüklerden çıkarımsal sözcük grubuna bağımlılık bağlantıları oluşturulur.

metu_sabanci_turkish_treebank_introduction

Paragraflar, cümleler ve kelimeler sırasıyla <Set>, <S> ve <W> etiketleri ile etiketlenir. Her etiket için cümle sayısı, kelime sayısı, morfolojik analizler ve bağımlılık ilişkileri hakkında bilgi içeren farklı nitelikler bulunmaktadır (Ayrıntılı bilgi için kullanıcı kılavuzuna bakınız).

Eski Üyeler

  • Sedef Akgul
  • Filiz Yılmaz Bican
  • Ayşenur Birturk
  • Aygün Boduroğlu
  • Cem Bozşahin
  • Deniz Cantürk
  • Ruken Çakıcı
  • Şükrü Barış Demiral
  • Rabia Ergin
  • Gülşen Eryiğit
  • Barış Cağrı Genç
  • İrfan Nuri Karaca
  • Çağrı Kayadelen
  • Wolf Konig
  • Mine Mısırlısoy
  • Barış Sara
  • Devrim Saran
  • Ümit Deniz Turan
  • Barçın Uluışık
  • Hacer Üke
  • Deniz Zeyrek

Ayrıca, katkıda bulunan yayıncılara ve gazetecilere teşekkür ederiz:

  • Adam Yayınevi
  • Atlas Dergisi
  • Bilgi Yayınevi
  • Bilim ve Ütopya Dergisi
  • Bütün Dünya Dergisi
  • Can Yayınları
  • Cumhuriyet Gazetesi
  • Doğu-Batı Dergisi
  • Iletişim Yayınları
  • İş Bankası Kültür Yayınları
  • Kuraldışı Yayınevi
  • Milliyet Gazetesi
  • Radikal Gazetesi
  • Yapı Kredi Yayınları

Projeler

ODTÜ Türkçe Derlem projesi ODTÜ-BAP tarafından finanse edilmiştir (proje no: 99060402)

Bağlantılar

ODTÜ Türkçe Derlem'i edinmek için lütfen ODTÜ Türkçe Derlem kullanıcı sözleşmesi formunu doldurunuz (Türkçe sürüm için tıklayınız) imzalayınız, tarayınız ve corpora@metu.edu.tr adresine e-posta ile gönderiniz. Tarama olanağınız yoksa imzalı formu +90 312 210 3745'e fakslayarak corpora@metu.edu.tr adresine bir bildirim gönderebilirsiniz. İlk yolu tercih ediyoruz ve bu durumda daha hızlı yanıt verebiliyoruz. Benzer şekilde, ODTÜ-Sabancı Türkçe’nin Ağaç Yapılı Derlemi dünyanın her yanından araştırmacılara yalnızca araştırma amaçlı olarak ücretsiz sağlanmaktadır. Söz konusu derlemin dağıtımı ayrıca bir kullanım kılavuzu, bir görüntüleme programı ve ilgili yayınları içerir. Derlemi almak için, ODTÜ-Sabancı Türkçe’nin Ağaç Yapısı Derlemi anlaşması formunu doldurunuz (Türkçe versiyon için tıklayınız), imzaladıktan sonra taratınız ve corpora@metu.edu.tr adresine e-posta ile gönderiniz. Tarama olanağınız mevcut değilse imzalı formu +90 312 210 3745'e fakslayarak corpora@metu.edu.tr adresine bildirim gönderebilirsiniz. İlk yolu tercih ediyoruz ve bu durumda daha hızlı yanıt verebiliyoruz.

ODTÜ - Metin Düzeyinde İşaretlenmiş Derlem (ODTÜ-MEDİD)

ODTÜ - Türkçe Söylem Bankası (ODTÜ-TDB) projesi, Türkçenin söylem yapısı ile ilgili bilgiler içeren bir derlem geliştirmeyi amaçlamaktadır. Bu proje kapsamında ekip, "çünkü" (çünkü), "ama" ve "aksi halde" (aksi takdirde) gibi bağlaçlarla temsil edildiği ölçüde Türk söylem yapısının doğasını araştırmaktadır. Proje süreci boyunce, 500.000 kelimelik bir alt derlem olan ODTÜ Türkçe Derlem, bağlaçlar ve argümanlar ile ilgili olarak ek açıklama yapmaktadır. Mevcut Türkçe’nin söylem yapısı bilgileriyle işaretlenmiş hiçbir kaynak mevcut olmadığından, ortaya çıkan işaretleme verilerinin gelecekteki Türkçe söylem yapısı çalışmaları için önemli bir kaynak haline gelmesi beklenmektedir. TDB 1.0'de bağlaç anlamları açıklanmıştır. Tüm derlemin %10'unun çeşitli söylem ilişkileri ve bunların ifade ettiği anlamlara göre işaretlenen TDB 1.1 daha sonra 2017'de kullanıma açılacaktır.

Grup üyeleri

Baş Araştırmacı

  • Deniz Zeyrek

Öğrenciler 

  • Murathan Kurfalı
  • Ege Saygıner

Projeler

  • BAP (BAP-07-04-2015-004) TÜRKÇE SÖYLEM DERLEMİNİN ZENGİNLEŞTİRİLMESİ: ÖRTÜK BAĞLAÇLARIN İŞARETLENMESİ (01.01.2015 - 31.12.2015)

Ortaklıklar

  • Ruket Çakıcı, Dr., ODTÜ Bilgisayar Mühendisliği Bölümü, Türkiye
  • Işın Demirşahin, Google Inc., London 
  • Ayışığı Sevdik-Çallı