Gen dizilerinin tanımlanması ve sınıflandırılması amacıyla yapay zekâ sistemlerinin geliştirilmesi
Yükleniyor...
Tarih
2024-10-25
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Batman Üniversitesi Lisansüstü Eğitim Enstitüsü
Erişim Hakkı
info:eu-repo/semantics/openAccess
Özet
Dünya genelinde milyarlarca virüs türü bulunmakta ve en küçük parazit varlıklar olan virüsler ciddi bir tehdit oluşturmaktadır. Virüslerin geniş çeşitliliği ve hızlı evrimi göz önüne alındığında, bulaşma dinamiklerini daha iyi anlamak ve hedefe yönelik tedavilerin geliştirilmesini kolaylaştırmak amacıyla viral türlerin ve potansiyel konakçılarının hızlı ve doğru bir şekilde sınıflandırılmasına ihtiyaç duyulmaktadır. Bu kapsamda, çalışmada patojenik tek sarmallı RNA virüslerinden oluşan ve farklı viral türler ile konakçılar içeren PhyVirus veri seti incelenmiştir. Tez, üç ana bölümden oluşmakta olup her bölüm, genetik dizilerin sınıflandırılmasına farklı bir perspektiften yaklaşmaktadır. İlk bölümde, K-Mer kodlama yöntemi ile viral aileler ve konakçılar, Random Forest, Gradient Boosting, Extra Trees ve Tam Bağlantılı Derin Sinir Ağı (FCDNN) gibi Makine Öğrenmesi ve Derin Öğrenme algoritmaları kullanılarak sınıflandırılmıştır. FCDNN yöntemiyle virüs ailelerinin %99,60 başarı oranıyla tahmin edilmesi, çalışmanın önemli sonuçlarından biridir. Konak tahmininde ise en yüksek başarı %81,53 oranıyla ExtraTrees sınıflandırıcısı ile elde edilmiştir. Gen dizilerinde K-Mer kodlamaya dayanan farklı kelime uzunluklarının, viral ailelere ve konakçılara göre sınıflandırmaya etkisi değerlendirilmiş, sınıflandırma sonuçlarına ve literatür araştırmasına dayanarak konakçılar arasındaki akrabalık, genetik benzerlikler ve evrimsel ilişkiler incelenmiştir. İkinci bölümde, gen dizilerinin grafik ve görüntü tabanlı kodlama teknikleri (FCGR, DNAWalk, Gri Ölçekli Dönüşüm) kullanılarak sınıflandırılması gerçekleştirilmiştir. Bu teknikler, bir CNN modeli (InceptionV3) ile analiz edilmiş ve Gri Ölçekli Dönüşüm yöntemi ile %99,89 olarak doğruluk oranına ulaşılmıştır. DNAWalk uygulamasında gen dizisi yörünge görüntüleri %99,14 doğruluk oranıyla sınıflandırılmıştır. FCGR uygulamasında ise k'nın 3 ile 8 değerleri arasında gerçekleştirilen kodlamalarda en yüksek doğruluk %99,85 olarak elde edilmiştir. Bu tekniklerle yapılan kodlamalar, viral aileler ve konakların daha doğru sınıflandırılmasına olanak tanımıştır. Mevcut literatür incelendiğinde, gen dizilerinin farklı kodlama yöntemleriyle bir veri seti üzerinde uygulanıp bu yöntemlerin sınıflandırma performansına etkilerinin kapsamlı şekilde analiz edildiği başka bir çalışma bulunmamaktadır. Bu tez çalışmasının, bu alandaki önemli bir boşluğu doldurarak literatüre anlamlı bir katkı sunması amaçlanmaktadır.
Gen dizileri, çeşitli biyolojik ve teknik süreçlerden geçerek analiz için hazır hale getirilmektedir. Ancak bu süreçlerin herhangi bir aşamasında ortaya çıkabilecek hatalar, gen dizilerinde eksik verilere neden olabilmektedir. Literatürde sıkça tartışılan eksik veri tahmini, genellikle verilerin hizalanmış olmasını gerektiren mevcut yöntemlere dayanmaktadır. Tezin üçüncü bölümünde, eksik veri tahmin yöntemleri ele alınmış ve KNN-Imputation yöntemi için yeni bir yaklaşım geliştirilmiştir. PhyVirus veri setindeki gen dizilerinin farklı uzunlukları, mevcut eksik veri tahmin yöntemlerinin doğrudan uygulanmasını engellemiştir. Bu sorun, geliştirilen KNN-Imputation yaklaşımıyla çözülerek çalışmaya özgün bir katkı sağlanmıştır.
Bu tez, genetik dizilerin kodlanması, sınıflandırılması ve eksik verilerin tahmini için yenilikçi yaklaşımlar geliştirmeyi ve bu yöntemlerin biyoinformatik araştırmalarda nasıl kullanılabileceğini ortaya koymayı amaçlamaktadır. Elde edilen sonuçlar, viral genom analizi ve sınıflandırma süreçlerine yeni metodolojik katkılar sunarak, bu alandaki bilimsel çalışmalara önemli bir referans niteliğinde olmayı hedeflemektedir.
There are billions of virus species worldwide, and as the smallest parasitic entities, viruses pose a significant threat. Given the vast diversity and rapid evolution of viruses, there is a critical need for the rapid and accurate classification of viral species and their potential hosts to better understand transmission dynamics and facilitate the development of targeted treatments. In this context, the PhyVirus dataset, which consists of pathogenic Single-Stranded RNA viruses and contains different viral species and hosts, is analyzed in this study. The thesis consists of three main chapters and each chapter approaches the classification of genetic sequences from a different perspective. In the first section, viral families and hosts are classified using the K-Mer encoding method along with machine learning (ML) and deep learning (DL) algorithms, such as Random Forest, Gradient Boosting, Extra Trees, and Fully Connected Deep Neural Network (FCDNN). Prediction of virus families with FCDNN method with %99,60 success rate is one of the important results of the study. In host prediction, the highest success rate of %81,53 was obtained with the ExtraTrees classifier. The impact of different K-Mer word lengths on the classification of viral families and hosts was evaluated, and evolutionary relationships, genetic similarities, and host relatedness were examined based on classification results and literature review. In the second section, classification of genetic sequences was performed using graphical and image-based encoding techniques (FCGR, DNAWalk, and Grayscale Transformation). These techniques were analyzed with a CNN model (InceptionV3) and an accuracy rate of %99,89 was achieved with the Grayscale Transform method. In the DNAWalk coding method, the genetic sequence trajectory images were classified with an accuracy of %99,14. In the FCGR coding method, the highest accuracy of %99,85 was obtained with word lengths between 3 and 8. These methods allowed for more accurate classification of viral families and hosts. Upon reviewing the existing literature, no other study was found that comprehensively analyzes the effects of different encoding methods on classification performance using a single dataset. This thesis aims to fill a significant gap in the field and make a meaningful contribution to the literature. Gene sequences are made ready for analysis through various biological and technical processes. However, errors that may occur at any stage of these processes may cause missing data in gene sequences. Missing data prediction, which is frequently discussed in the literature, is usually based on existing methods that require the data to be aligned. In the third part of the thesis, missing data prediction methods are discussed and a new approach for the KNN-Imputation method is developed. The different lengths of the gene sequences in the PhyVirus dataset prevented the direct application of existing missing data prediction methods. This issue was resolved by the newly developed KNN-Imputation approach, which provided a unique contribution to the study. This thesis aims to develop innovative approaches for encoding, classifying, and imputing missing data in genetic sequences and to demonstrate how these methods can be applied in bioinformatics research. The results obtained aim to be an important reference for scientific studies in this field by providing new methodological contributions to viral genome analysis and classification processes.
There are billions of virus species worldwide, and as the smallest parasitic entities, viruses pose a significant threat. Given the vast diversity and rapid evolution of viruses, there is a critical need for the rapid and accurate classification of viral species and their potential hosts to better understand transmission dynamics and facilitate the development of targeted treatments. In this context, the PhyVirus dataset, which consists of pathogenic Single-Stranded RNA viruses and contains different viral species and hosts, is analyzed in this study. The thesis consists of three main chapters and each chapter approaches the classification of genetic sequences from a different perspective. In the first section, viral families and hosts are classified using the K-Mer encoding method along with machine learning (ML) and deep learning (DL) algorithms, such as Random Forest, Gradient Boosting, Extra Trees, and Fully Connected Deep Neural Network (FCDNN). Prediction of virus families with FCDNN method with %99,60 success rate is one of the important results of the study. In host prediction, the highest success rate of %81,53 was obtained with the ExtraTrees classifier. The impact of different K-Mer word lengths on the classification of viral families and hosts was evaluated, and evolutionary relationships, genetic similarities, and host relatedness were examined based on classification results and literature review. In the second section, classification of genetic sequences was performed using graphical and image-based encoding techniques (FCGR, DNAWalk, and Grayscale Transformation). These techniques were analyzed with a CNN model (InceptionV3) and an accuracy rate of %99,89 was achieved with the Grayscale Transform method. In the DNAWalk coding method, the genetic sequence trajectory images were classified with an accuracy of %99,14. In the FCGR coding method, the highest accuracy of %99,85 was obtained with word lengths between 3 and 8. These methods allowed for more accurate classification of viral families and hosts. Upon reviewing the existing literature, no other study was found that comprehensively analyzes the effects of different encoding methods on classification performance using a single dataset. This thesis aims to fill a significant gap in the field and make a meaningful contribution to the literature. Gene sequences are made ready for analysis through various biological and technical processes. However, errors that may occur at any stage of these processes may cause missing data in gene sequences. Missing data prediction, which is frequently discussed in the literature, is usually based on existing methods that require the data to be aligned. In the third part of the thesis, missing data prediction methods are discussed and a new approach for the KNN-Imputation method is developed. The different lengths of the gene sequences in the PhyVirus dataset prevented the direct application of existing missing data prediction methods. This issue was resolved by the newly developed KNN-Imputation approach, which provided a unique contribution to the study. This thesis aims to develop innovative approaches for encoding, classifying, and imputing missing data in genetic sequences and to demonstrate how these methods can be applied in bioinformatics research. The results obtained aim to be an important reference for scientific studies in this field by providing new methodological contributions to viral genome analysis and classification processes.
Açıklama
Anahtar Kelimeler
RNA Virüsleri, Viral Sınıflandırma, Makine Öğrenmesi, Derin Öğrenme, K-Mer, FCGR, DNAWalk, KNN-Imputation, RNA Viruses, Viral Classification, Machine Learning, Deep Learning
Kaynak
WoS Q Değeri
Scopus Q Değeri
Cilt
Sayı
Künye
Çiftçi, B. (2024). Gen dizilerinin tanımlanması ve sınıflandırılması amacıyla yapay zekâ sistemlerinin geliştirilmesi. (Yayınlanmamış Doktora Tezi). Batman Üniversitesi Lisansüstü Eğitim Enstitüsü, Batman.