Gökçe Abay, Matris Factorizasyonu Yöntemi ile Biyolojik Veri Entegrasyonu ve İlişki Tahmini

Yüksek Lisans Adayı: Gökçe Abay
EABD: Biyoinformatik
Tarih: 30.01.2020 / 15:30
Yer: A-212

Özet: Yaşam bilimleri alanındaki yeni teknolojik gelişmeler sayesinde, üretilen moleküler sekans verisi miktarı son yıllarda fazlasıyla artmıştır. Bu verinin bilim dünyasına faydalı olabilmesi için anlamlandırılması gerekmektedir. Geleneksel olarak bu anlamlandırma işlemi, deneyler ile üretilen moleküler verinin elle işlenmesi ve biyolojik veri tabanlarında saklanması suretiyle yapılır. Ancak bu verinin muazzam büyüklükte olması, otomatik ve sistematik analiz ihtiyacını doğurmaktadır. Bu sistematik analizin önemli bir kısmını, farklı veri tabanlarından elde edilen ögelerin arasındaki ilişkilerin tanımlanması ile verinin birleştirilmesi oluşturmaktadır. Bu çalışmada negatif olmayan matris faktorizasyonu (non-negative matrix factorization – NMF) yöntemi ile büyük çaplı gen/protein verisini birleştirecek bir yaklaşım önerilmektedir. NMF ürün tavsiye sistemlerinde sıklıkla kullanılan ve başarılı uygulamaları olan bir yöntemdir. NMF ayrıca biyoenformatik ve kemoenformatik gibi çeşitli alanlardaki çoklu-ilişkili verinin birleştirilmesinde de kullanılmıştır. Bu çalışmanın amacı doğrultusunda, öncelikle moleküler işlev, biyolojik süreç, hücre-içi konumlandırma ve hastalık ilişkileri gibi protein anotasyonlarını UniProt-GOA, DisGeNET gibi farklı kaynaklardan topladık ve bunları ikili ilişki matrisleri olarak düzenledik. Sonrasında bu çok-boyutlu ilişkili biyomoleküler sekans anotasyon verisine (genler/proteinler ve işlevler, genler/proteinler ve hastalıklar, hastalıklar ve işlevler) çeşitli NMF tabanlı algoritmaları uyguladık; ardından her modelin sonuçlarını ilişkili verideki esas yapıyı öğrenme yeteneği üzerinden çapraz doğrulama aracılığıyla değerlendirdik. Sonuçlar, NMF’in bilinen protein anotasyonlarının çoğunu herhangi bir sekans veya yapı tabanlı protein özelliği kullanmadan elde etme yeteneğinin olduğunu gösterdi (AUROC: 0.80 – 0.94, doğruluk: 0.73 – 0.87, F1-skoru: 0.73 – 0.89, MCC: 0.47 – 0.79). Bu çalışmanın nihai amacı, NMF’i kullanarak bu biyolojik varlıklar arasındaki bilinmeyen ikili ilişkileri tahmin etmektir. Devamında ise, bu varlıkları (proteinler, işlevler ve hastalık girdileri) faktorizasyon işleminyle üretilmiş az ranklı öznitelik matrislerini kullanarak bilgilendirici ve artıksız niceliksel öznitelik vektörleri olarak sunmaktır. Bu öznitelik matrislerinin gelecekte proteinlerin otomatik anotasyonu veya biyolojik ağ oluşturulması gibi çeşitli veri madenciliği ve makine öğrenmesi uygulamalarında kullanılması hedeflenilmektedir.