Yaşam Bilimlerinde Yeni Paradigma
Muhammed Erkan Karabekmez
Modern bilim doğada gözlemlenen olayların “nasıl” meydana geldiğinin formüle edilebildiği ve dolayısıyla olaylar cereyan etmeden önce nasıl cereyan edeceğinin “bilinebileceğinin” düşünüldüğü bir forma sahiptir. Elle hesaplanamayacak işlemlerin yapılmasını sağlayan bilgisayarlarla, bilimde bir paradigma kayması başlamıştır. Bilgisayar destekli deney ekipmanları çok hızlı bir şekilde gelişip, daha önceleri tahayyül edilemeyecek bir hızda tarama yapmaya ve veri üretmeye başlamıştır. Bu durum daha önce öngörülemeyen birçok sorunu ortaya çıkarmıştır: üretilen verilerin anlamlandırılması tamamen farklı bir bilimsel çalışma metodolojisi gerektirmektedir. Artık matematiksel modelleme, karmaşık ağlar, makine öğrenmesi gibi nümerik yaklaşımlar ve bu yaklaşımların yazılım araçları halinde uygulanması hemen her bilim dalı için kaçınılmaz bir hale geldi.
Teknolojik gelişmelerle hücre içerisindeki bütün DNA dizilerinin okunmasıyla (genomik), bütün RNA miktarlarının tayini ile (transkriptomik) veya bütün protein miktarlarının tayini ile (proteomik) –omik veriler elde edilebilir hale gelmiştir. Bütün bunlar hücre içi mekanizmaları ufak parçalar halinde anlamlandırıp birleştirerek bütünü anlama yaklaşımı yerine sistemi bir bütün olarak ele alıp şümullü bir şekilde değerlendirme yaklaşımının tesis edilmesine neden olmuştur. Bu yeni yaklaşıma sistem biyolojisi adı verilmiştir.
Hücre içerisindeki ana faaliyetlere tekabül eden genomik, transkriptomik ve proteomik verilerin dışında birçok farklı büyük veri katmanları mevcuttur. Genom ölçeğinde metabolik modellerin ortaya çıkmasıyla birlikte metabolomik veriler ortaya çıkmış ve bir insan hücresi için örneğin 7500 reaksiyon ve 5000 metabolitten oluşan kompleks yapıların eş zamanlı çözümlenmesi hedeflenmiştir. İnteraktomik verilerle hücre içerisinde sayıları 20.000’e yaklaşan proteinlerin etkileşimleri ağ yapıları şeklinde irdelenerek bilinmeyen mekanizmalar aydınlatılmaya çalışılmaktadır. Proteinlerin üç boyutlu yapılarını çözümlemek fonksiyonel kısımlarının tespitinde ve dolayısıyla proteinlerden kaynaklanan hastalıklara özel ilaç geliştirmede hayati önem taşımaktadır. Üç boyutlu yapısı bilinen proteinleri kullanarak amino asit dizisi bilinen fakat üç boyutlu yapısı bilinmeyen proteinlerin yapısını makine öğrenmesi metodlarıyla tahmin etmeye çalışan hesaplamalı yapısal biyoloji neredeyse müstakil bir disiplin halini almıştır.
İnsan genomunun dizilenmesi oldukça uzun bir serüven neticesinde tamamlanmıştır. 1990 senesinde başlanan projenin 15 sene sürmesi ve 5 milyar dolara mal olması beklenirken 2001 Şubatında 2,7 milyar dolara tamamlanmış ve Bill Clinton ve Tony Blair’in ortak basın toplantısıyla duyurulmuştur. Neticede elde edilen veri daha önceki birçok varsayımı alt üst etmiş ve aynı zamanda daha önce öngörülemeyen birçok yeni sorunu ortaya çıkarmıştır. Öncelikle evrimsel gelişmişlikle moleküler kompleksliğin doğru orantılı olduğu varsayımı ve genetik materyal uzunluğu göz önüne alınarak insanda 100.000 gen olduğu yönündeki projeksiyonların gerçeğin çok üstünde olduğu görülmüştür. Şu anda tahmin edilen insandaki gen sayısı 20.000 civarı iken yaklaşık 6.000 gene sahip tek hücreli bir mayadan moleküler mekanizmalarının o kadar da farklı olmadığı ortaya çıkmıştır. Bu genler 5 milyar harften oluşan, arada boşluk ve noktalama işareti gibi ayırt edici karakterler bulunmayan bir metin oluşturmaktadır. Dolayısıyla bu metnin nerede başlayıp nerede sonlandığı bilinememektedir. Protein kodlayan ekson bölgeleri ile protein kodlamayan intron bölgelerinin nasıl ayırt edileceği karmaşık sorunlar ortaya çıkarmıştır. DNA dizisinde karşılaşılan sapmaların fenotipik özelliklerle ilişkilendirilmesi hem deneysel hem hesapsal boyutu olan kompleks projeler gerektirmiştir.
Bu büyük verinin analizi için sarf edilen hesaplamalı çalışmalar tekâmül etmeden dizileme teknolojisinde devrimsel gelişmeler meydana gelmeye devam etmiştir. Yeni nesil dizileme teknolojisiyle artık 1000 dolarlık bir maliyetle ve sadece iki üç gün içerisinde bir insanın tüm DNA’sını dizilemek mümkündür. Bu da çok ciddi bir veri üretimine imkân sağlamaktadır.
İngiltere, Katar ve Türkiye gibi birçok ülkede 10.000 genom, 100.000 genom benzeri popülasyon genetiği çalışmalarıyla çok hızlı bir şekilde büyük veri üretimi artmaya devam edecektir. Global dizileme verisinin 2015 üretiminin 8 PikoBit/sene olduğu tahmin edilmektedir. Sadece üretilen verilerin işlenmesiyle ilgilenen biyoenformatik pazarının küresel ölçekte 2021’de 16-18 milyar dolara erişeceği öngörülmektedir. Ülkemizde senelik genetik tanı test sayısının tahminen 15.000 civarında olduğunu söylemek çok yanlış olmayacaktır. İki üç sene içerisinde bu testlerin tüm egzom ve sonrasında da tüm genom şekline dönüşmesi kaçınılmaz görünmektedir. Genom başı maliyetin 100 dolar civarına düşmesiyle birlikte genom dizileme rutin bir klinik test haline gelebilir. Genomik verinin boyutu bu anlamda da önemli bir artışa gebedir.
Yeni nesil dizileme ile tespit edilen RNA miktarları bazı hastalıklar açısından diyagnostik olarak DNA dizilerinden daha önemli olabilmektedir dolayısıyla önümüzdeki yıllarda RNA dizileme çalışmalarının da artabileceği öngörülebilir. RNA dizilerinin DNA dizileri gibi sabit olmaması, aynı hasta için farklı zaman ve koşullarda yeniden analizini anlamlı kıldığından yaygınlaşmasıyla üretilecek dizileme verisinin de çok daha hızlı artacağı öngörülebilir.
Veri-yoğun çağda klinik tıp da dönüşmeye başlamıştır. Artık hastalıkların değil hastanın ön plana çıktığı bir tıp yaklaşımına geçiliyor. 4P tıp yaklaşımı diye formüle edilen geleceğin tıbbının öngörücü [predictive], önleyici [preventive], kişiye özel [personalized] ve katılımcı [participatory] olacağı düşünülüyor. Genomik, transkriptomik ve proteomik verisi toplanan bireylerin hasta olmadan yatkın olduğu hastalıkların tayini, bunların ortaya çıkmasını engelleyecek kişiye özel çözümlerin katılımcı bir şekilde uygulanmasıyla hastalıkların tedavisine değil daha hastalık ortaya çıkmadan sağlıklı bireylerin sıhhatini muhafaza etmeye odaklanmış bir tıp yaklaşımından söz edilmektedir.
İnsan genomu projesinin önemli figürlerinden Craig Venter bir kişinin genomik verisini anlamlandırabilmek için DNA ile fenotip arasındaki ilişkinin popülasyon içindeki değişimini on binlerce insanın genomik verisi ile ölçülebilen her türlü fizyolojik göstergesini (transkriptomik ve proteomik verilerden tutun klinik değerlere ve hatta giyilebilir araçlarla sürekli toplanan yaşamsal verilere kadar akla gelebilecek herşey) bir arada değerlendirmek zorunda olduğumuza işaret etmekte ve bunun için katetmemiz gereken yolun henüz başında olduğumuzu belirtmektedir. Dolayısıyla hücre içerisinden elde edilen büyük verinin, klinik değerlendirmelerde elde edilen bilgilerin, akıllı aygıtlarla anlık toplanan yaşamsal fonksiyon verilerinin ve hatta akıllı şehir uygulamalarından toplanabilecek verilerin popülasyon ölçeğinde entegrasyonu ve bir arada değerlendirilmesi ile sağlıklı kalmaya odaklanacak bir tıp çağından bahsedilebilir. Klinik karar destek sistemlerinin bütün bu veri katmanlarıyla zenginleşeceğini hayal etmek mümkün.
Veri-yoğun çağ sadece yeni hesaplamalı sorunlar üretmekle kalmamakta hukuki ve etik alanda da önemli açılımlar gerektirmektedir. Örneğin bütün popülasyonun her türlü fizyolojik ve biyolojik verilerinin üçüncü bir şahısta bulunması ürkütücü olabilir. Bu üçüncü şahıs devlet dahi olsa bu veri birikiminin bir kontrol disütopyasına dönüşmeyeceğinin bir garantisi yok. Dolayısıyla belki de bu konuda da bir optimizasyon yapılmalı ve vazgeçilen mahremiyet ile umulan fayda arasında bir denge tesis edilebilmelidir. Bu konuda ülkemizde mevzuat çalışmaları olmakla beraber yasal sorunların hızla artacağı ve bunlara uygun mevzuatların ivedilikle ortaya konması da elzem görünmektedir. Büyük veri analizi ile elde edilen sonuçlara göre alınabilecek aksiyonlar da bir başka etik ve hukuki sorun alanı açmaktadır. Sitoplazması (mitokondri kaynaklı hastalıklardan sakınmak için) başka anneden, DNA’sı başka anneden ilk bebeğin Meksika’da doğduğu dünyamızda CRISPR ile müdehale edilmiş sperm veya yumurtalardan bahsedilmeye başlanması kaçınılmazdır. Bütün bu konularda da büyük verinin hızına yetişecek değerlendirmeler yapmak zaruri görünmektedir. Veri-yoğun çağ birçok sorunu çözerken birçok yeni sorunu yadsınamaz bir şekilde gün yüzüne çıkarmaktadır. Dolayısıyla veri-yoğun çağ hem bize bazı temel cevaplara asla ulaşamayacağımızı, kısacası determinist anlamda “bilemeyeceğimizi” söylerken bir yandan da yaşamın kompleksliğini göstererek bu paradigma değişiminin kaçınılmaz olduğunu ortaya koymaktadır.
Kaynakça
- Hey T, Tansley S, Tolle KM. The fourth paradigm: data-intensive scientific discovery (Vol. 1). Redmond, WA: 2009; Microsoft research.
- Noble D. The music of life: biology beyond genes. 2008; Oxford University Press.
- Kitano H. Systems biology: a brief overview. Science, 2002; 295(5560), 1662-1664.
- Lander ES, Linton LM, Birren B, Nusbaum C, Zody MC, Baldwin J, … Funke R. Initial sequencing and analysis of the human genome. Nature, 2001; 409(6822), 860-921.
- Venter JC, Adams MD, Myers EW, Li PW, Mural RJ, Sutton GG, … Gocayne JD. The sequence of the human genome. Science, 2001; 291(5507), 1304-1351.
- Goodwin S, McPherson JD, McCombie WR. Coming of age: ten years of next-generation sequencing technologies. Nature Reviews Genetics, 2016; 17(6), 333-351.
- https://www.genomicsengland.co.uk/the-100000-genomes-project/
- http://www.qatarbiobank.org.qa/qatar-genome/about-qatar-genome-programme
- http://aa.com.tr/tr/saglik/turk-genom-projesi-cigir-acacak/438470
- http://www.marketsandmarkets.com/PressReleases/bioinformatics-market.asp
- DePristo MA, Banks E, Poplin R, Garimella KV, Maguire JR, Hartl C, … McKenna A. A framework for variation discovery and genotyping using next-generation DNA sequencing data. Nature genetics, 2011; 43(5), 491-498.
- Byron SA, Van Keuren-Jensen KR, Engelthaler DM, Carpten JD, Craig DW. Translating RNA sequencing into clinical diagnostics: opportunities and challenges. 2016; Nature Reviews Genetics.
- Weston AD, Hood L. Systems biology, proteomics, and the future of health care: toward predictive, preventative, and personalized medicine. Journal of proteome research, 2004; 3(2), 179-196.
- Auffray C, Charron D, Hood L. Predictive, preventive, personalized and participatory medicine: back to the future. Genome medicine, 2010; 2(8), 1.
- Stevens H. Life out of sequence: a data-driven history of bioinformatics. 2013; University of Chicago Press.