Predicting and analyzing rna and protein modifications by combining deep protein language models with transformers

Name: Predicting and analyzing rna and protein modifications by combining deep protein language models with transformers
Author: Soylu, Necla Nisa

İsim	Predicting and analyzing rna and protein modifications by combining deep protein language models with transformers
Yazar	Soylu, Necla Nisa
Basım Tarihi:	2024
Konu	Artificial intelligence, Deep learning (Machine learning), Machine learning, Natural language processing (Computer science)
Tür	Belge
Dil	İngilizce
Dijital	Evet
Yazma	Hayır
Kütüphane:	Özyeğin Üniversitesi
Kayıt Numarası	60a99c1e-1a8f-418d-ac91-c25a4e4b92c2
Lokasyon	Department of Artificial Intelligence
Tarih	2024
Örnek Metin	Recent work on language models has resulted in state-of-the-art performance on various language tasks. Among these, Bidirectional Encoder Representations from Transformers (BERT) has focused on contextualizing word embeddings to extract the context and semantics of the words. Besides, their protein-specific versions such as ProtBERT generated dynamic protein sequence embeddings which resulted in better performance for several bioinformatics tasks. On the other hand, Post-transcriptional 2'-O-methylation (Nm) RNA modification and a number of different protein post-translational modifications are prominent in cellular tasks and related to a number of diseases. The existing high-throughput experimental techniques take longer time to detect these modifications, and costly in exploring these functional processes. Here, to deeply understand the associated biological processes faster, we come up with two efficient methods: the first one is BERT2OME to infer 2'-O-methylation RNA modification sites from RNA sequences and the second one is DEEPPTM to predict protein post-translational modification (PTM) sites from protein sequences more efficiently. BERT2OME combines BERT-based model with convolutional neural networks (CNN) to infer the relationship between the modification sites and RNA sequence content. Unlike the methods proposed so far, BERT2OME assumes each given RNA sequence as a text and focuses on improving the modification prediction performance by integrating the pre-trained deep learning-based language model BERT. Additionally, our transformer-based approach could infer modification sites across multiple species. According to 5-fold cross-validation, human and mouse accuracies were 99.15% and 94.35% respectively. Similarly, ROC AUC scores were 0.99 and 0.94 for the same species. Detailed results show that BERT2OME reduces the time consumed in biological experiments and outperforms the existing approaches across different datasets and species over multiple metrics. Additionally, deep learning approaches such as 2D CNNs are more promising in learning BERT attributes than more conventional machine learning methods. Different than the current methods, DEEPPTM enhances the modification prediction performance by integrating specialized ProtBERT-based protein embeddings with attention-based vision transformers (ViT), and reveals the associations between different modification types and protein sequence content. Additionally, it can infer several different modifications over different species. Human and mouse ROC AUCs for predicting Succinylation modifications were 0.988 and 0.965 respectively, once 10-fold cross-validation is applied. Similarly, we have obtained 0.982, 0.955, and 0.953 ROC AUC scores on inferring ubiquitination, crotonylation, and glycation sites respectively. According to detailed computational experiments, DEEPPTM lessens the time spent in laboratory experiments while outperforming the competing methods as well as baselines on inferring all 4 modification sites. In our case, attention-based deep learning methods such as vision transformers look more favorable to learn from ProtBERT features than more traditional deep learning and machine learning techniques. Additionally, the protein-specific ProtBERT model is more effective than the original BERT embeddings for PTM prediction tasks., Dil modelleri üzerine yapılan son çalışmalar, çeşitli dil problemlerinde son derece iyi performans gösterdi. Örneğin, Transformatörler'de Çift Yönlü Kodlayıcı Gösterimleri (BERT), kelimelerin bağlamını ve anlamını çıkarma konusuna odaklanmıştır. ProtBERT gibi proteine özgü versiyonlar da, çeşitli biyoinformatik çalışmalarında çok iyi sonuçlar elde etmiştir. Bu çalışmaların yanısıra, transkripsiyon sonrası 2'-O-metilasyon (Nm) RNA modifikasyonu ve bir dizi farklı protein translasyon sonrası modifikasyonu, sadece hücresel görevlerde öne çıkmakla kalmayıp, canlılarda meydana gelen pekçok hastalıkla ilişkilendirilmiştir. Mevcut yüksek verimli deneysel tekniklerin bu değişiklikleri tespit etmesi hem uzun zaman almakta hem de çok fazla maaliyete gerektirmektedir. Bu alanlarda yapılacak ilgili biyolojik süreçleri daha hızlı hale getirmek ve ilgili konularda daha iyi sonuçlara ulaşmak için iki etkili model tasarladık; ilk olarak, RNA dizilerinden 2'-O-metilasyon RNA modifikasyon bölgelerini çıkarmak için kullanılacak olan BERT2OME ve ikinci olarak da protein dizilerinden protein translasyon sonrası modifikasyon (PTM) bölgelerini daha verimli bir şekilde tahmin etmek için DEEPPTM'dir. BERT2OME, modifikasyon bölgeleri ile RNA dizisi içeriği arasındaki ilişkiyi ortaya çıkarmak için BERT tabanlı modeli evrişimli sinir ağlarıyla (CNN) birleştirir. Şu ana kadar önerilen yöntemlerden farklı olarak BERT2OME, verilen her RNA dizisini bir metin olarak kabul eder ve önceden eğitilmiş derin öğrenme tabanlı dil modeli BERT'i entegre ederek modifikasyon tahmin performansını iyileştirmeye odaklanır. Transformatör tabanlı bu yaklaşımımız, birden fazla türün modifikasyon bölgelerini de ortaya çıkarabilmektedir. 5 katmanlı çapraz doğrulamaya göre insan ve farelerde doğru tahminleme başarısı sırasıyla 99.15% ve 94.35% olarak ölçüldü. Benzer şekilde ROC AUC skorları da aynı tür için 0.99 ve 0.94 olarak bulundu. Ayrıntılı sonuçlar, BERT2OME'nin biyolojik deneylerde harcanan süreyi azalttığını ve birden fazla ölçüm üzerinden farklı veri kümeleri ve türler genelinde mevcut yaklaşımlardan daha iyi performans gösterdiğini kanıtlamaktadır. Ek olarak, 2 boyutlu CNN'ler gibi derin öğrenme yaklaşımları, BERT özelliklerinin öğrenilmesinde daha geleneksel makine öğrenme yöntemlerine göre daha umut vericidir. Bir diğer modelimiz DEEPPTM, mevcut yöntemlerden farklı olarak, ProtBERT tabanlı protein yerleştirmelerini dikkat tabanlı görüntü transformatörleri (ViT) ile entegre ederek modifikasyon tahmin performansını arttırıp, farklı modifikasyon türleri ile protein dizisi içeriği arasındaki ilişkileri ortaya çıkarmıştır. Süksinilasyon modifikasyonlarını tahmin etmek için insan ve fare ROC AUC'leri, 10 katmanlı çapraz doğrulama uygulandığında sırasıyla 0.988 ve 0.965 sonuçlarını vermiştir. Benzer şekilde, ubikuitinasyon, krotonilasyon ve glikasyon bölgelerinin çıkarılmasında sırasıyla 0.982, 0.955 ve 0.953 ROC AUC skorları elde edilmiştir. DEEPPTM modelinin geliştirilmesinde, görüntü transformatörleri gibi dikkat odaklı derin öğrenme yöntemleri, ProtBERT özelliklerini öğrenme konusunda daha etkili olmuş ve daha geleneksel derin öğrenme ile makine öğrenme tekniklerine göre üstün bir performans sergilemiştir. Ek olarak proteine özgü ProtBERT modeli, PTM tahminlemesinde BERT modelinden daha etkili olmuştur.

Kaynağa git Özyeğin Üniversitesi

Aramaya Dön

Özyeğin Üniversitesi

Kaynağa git

Predicting and analyzing rna and protein modifications by combining deep protein language models with transformers

Yazar Soylu, Necla Nisa

Basım Tarihi 2024

Konu Artificial intelligence, Deep learning (Machine learning), Machine learning, Natural language processing (Computer science)

Tür Belge

Dil İngilizce

Dijital Evet

Yazma Hayır

Kütüphane Özyeğin Üniversitesi

Kayıt Numarası 60a99c1e-1a8f-418d-ac91-c25a4e4b92c2

Lokasyon Department of Artificial Intelligence

Tarih 2024

Örnek Metin Recent work on language models has resulted in state-of-the-art performance on various language tasks. Among these, Bidirectional Encoder Representations from Transformers (BERT) has focused on contextualizing word embeddings to extract the context and semantics of the words. Besides, their protein-specific versions such as ProtBERT generated dynamic protein sequence embeddings which resulted in better performance for several bioinformatics tasks. On the other hand, Post-transcriptional 2'-O-methylation (Nm) RNA modification and a number of different protein post-translational modifications are prominent in cellular tasks and related to a number of diseases. The existing high-throughput experimental techniques take longer time to detect these modifications, and costly in exploring these functional processes. Here, to deeply understand the associated biological processes faster, we come up with two efficient methods: the first one is BERT2OME to infer 2'-O-methylation RNA modification sites from RNA sequences and the second one is DEEPPTM to predict protein post-translational modification (PTM) sites from protein sequences more efficiently. BERT2OME combines BERT-based model with convolutional neural networks (CNN) to infer the relationship between the modification sites and RNA sequence content. Unlike the methods proposed so far, BERT2OME assumes each given RNA sequence as a text and focuses on improving the modification prediction performance by integrating the pre-trained deep learning-based language model BERT. Additionally, our transformer-based approach could infer modification sites across multiple species. According to 5-fold cross-validation, human and mouse accuracies were 99.15% and 94.35% respectively. Similarly, ROC AUC scores were 0.99 and 0.94 for the same species. Detailed results show that BERT2OME reduces the time consumed in biological experiments and outperforms the existing approaches across different datasets and species over multiple metrics. Additionally, deep learning approaches such as 2D CNNs are more promising in learning BERT attributes than more conventional machine learning methods. Different than the current methods, DEEPPTM enhances the modification prediction performance by integrating specialized ProtBERT-based protein embeddings with attention-based vision transformers (ViT), and reveals the associations between different modification types and protein sequence content. Additionally, it can infer several different modifications over different species. Human and mouse ROC AUCs for predicting Succinylation modifications were 0.988 and 0.965 respectively, once 10-fold cross-validation is applied. Similarly, we have obtained 0.982, 0.955, and 0.953 ROC AUC scores on inferring ubiquitination, crotonylation, and glycation sites respectively. According to detailed computational experiments, DEEPPTM lessens the time spent in laboratory experiments while outperforming the competing methods as well as baselines on inferring all 4 modification sites. In our case, attention-based deep learning methods such as vision transformers look more favorable to learn from ProtBERT features than more traditional deep learning and machine learning techniques. Additionally, the protein-specific ProtBERT model is more effective than the original BERT embeddings for PTM prediction tasks., Dil modelleri üzerine yapılan son çalışmalar, çeşitli dil problemlerinde son derece iyi performans gösterdi. Örneğin, Transformatörler'de Çift Yönlü Kodlayıcı Gösterimleri (BERT), kelimelerin bağlamını ve anlamını çıkarma konusuna odaklanmıştır. ProtBERT gibi proteine özgü versiyonlar da, çeşitli biyoinformatik çalışmalarında çok iyi sonuçlar elde etmiştir. Bu çalışmaların yanısıra, transkripsiyon sonrası 2'-O-metilasyon (Nm) RNA modifikasyonu ve bir dizi farklı protein translasyon sonrası modifikasyonu, sadece hücresel görevlerde öne çıkmakla kalmayıp, canlılarda meydana gelen pekçok hastalıkla ilişkilendirilmiştir. Mevcut yüksek verimli deneysel tekniklerin bu değişiklikleri tespit etmesi hem uzun zaman almakta hem de çok fazla maaliyete gerektirmektedir. Bu alanlarda yapılacak ilgili biyolojik süreçleri daha hızlı hale getirmek ve ilgili konularda daha iyi sonuçlara ulaşmak için iki etkili model tasarladık; ilk olarak, RNA dizilerinden 2'-O-metilasyon RNA modifikasyon bölgelerini çıkarmak için kullanılacak olan BERT2OME ve ikinci olarak da protein dizilerinden protein translasyon sonrası modifikasyon (PTM) bölgelerini daha verimli bir şekilde tahmin etmek için DEEPPTM'dir. BERT2OME, modifikasyon bölgeleri ile RNA dizisi içeriği arasındaki ilişkiyi ortaya çıkarmak için BERT tabanlı modeli evrişimli sinir ağlarıyla (CNN) birleştirir. Şu ana kadar önerilen yöntemlerden farklı olarak BERT2OME, verilen her RNA dizisini bir metin olarak kabul eder ve önceden eğitilmiş derin öğrenme tabanlı dil modeli BERT'i entegre ederek modifikasyon tahmin performansını iyileştirmeye odaklanır. Transformatör tabanlı bu yaklaşımımız, birden fazla türün modifikasyon bölgelerini de ortaya çıkarabilmektedir. 5 katmanlı çapraz doğrulamaya göre insan ve farelerde doğru tahminleme başarısı sırasıyla 99.15% ve 94.35% olarak ölçüldü. Benzer şekilde ROC AUC skorları da aynı tür için 0.99 ve 0.94 olarak bulundu. Ayrıntılı sonuçlar, BERT2OME'nin biyolojik deneylerde harcanan süreyi azalttığını ve birden fazla ölçüm üzerinden farklı veri kümeleri ve türler genelinde mevcut yaklaşımlardan daha iyi performans gösterdiğini kanıtlamaktadır. Ek olarak, 2 boyutlu CNN'ler gibi derin öğrenme yaklaşımları, BERT özelliklerinin öğrenilmesinde daha geleneksel makine öğrenme yöntemlerine göre daha umut vericidir. Bir diğer modelimiz DEEPPTM, mevcut yöntemlerden farklı olarak, ProtBERT tabanlı protein yerleştirmelerini dikkat tabanlı görüntü transformatörleri (ViT) ile entegre ederek modifikasyon tahmin performansını arttırıp, farklı modifikasyon türleri ile protein dizisi içeriği arasındaki ilişkileri ortaya çıkarmıştır. Süksinilasyon modifikasyonlarını tahmin etmek için insan ve fare ROC AUC'leri, 10 katmanlı çapraz doğrulama uygulandığında sırasıyla 0.988 ve 0.965 sonuçlarını vermiştir. Benzer şekilde, ubikuitinasyon, krotonilasyon ve glikasyon bölgelerinin çıkarılmasında sırasıyla 0.982, 0.955 ve 0.953 ROC AUC skorları elde edilmiştir. DEEPPTM modelinin geliştirilmesinde, görüntü transformatörleri gibi dikkat odaklı derin öğrenme yöntemleri, ProtBERT özelliklerini öğrenme konusunda daha etkili olmuş ve daha geleneksel derin öğrenme ile makine öğrenme tekniklerine göre üstün bir performans sergilemiştir. Ek olarak proteine özgü ProtBERT modeli, PTM tahminlemesinde BERT modelinden daha etkili olmuştur.