Русская версия English version   
Том 19   Выпуск 2   Год 2024
Ускорение алгоритма 3SEQ для поиска рекомбинантных геномных последовательностей за счёт многопоточности и учета дат сбора образцов

Девятериков А.П.1, Пальянов А.Ю.1,2,3

1Институт систем информатики им. А.П. Ершова СО РАН, Новосибирск, Россия
2НИИ вирусологии ФИЦ ФТМ, Новосибирск, Россия
3Новосибирский государственный университет, Новосибирск, Россия

Аннотация. В статье представлена эффективная многопоточная реализация современного алгоритма 3SEQ для выявления рекомбинантных генетических последовательностей, протестированная на вирусных геномах. Работа проводилась в рамках проекта по созданию отечественного программного комплекса (bioprojects.iis.nsk.su) для решения широкого спектра задач, связанных с анализом данных в области биоинформатики, вирусологии и эпидемиологии. Рекомбинантный вирусный геном получается в результате обмена частями геномов двух разных вариантов вирусов одного вида, что возможно при заражении одновременно обоими вариантами. Возникновение рекомбинантов – это редкие, но важные события в контексте изучения эволюции вируса. Одним из наиболее перспективных среди существующих алгоритмов для поиска рекомбинантов представляется 3SEQ, однако авторская версия работает только в однопоточном режиме. Мы реализовали этот алгоритм с поддержкой многопоточных вычислений и учетом дат сбора образцов, что обеспечило значительный прирост скорости вычислений. С помощью созданного программного обеспечения осуществлён поиск рекомбинантов в выборках геномов вирусов гриппа A H1N1 (анализировались только сегменты PB2 из 2174 геномов), лихорадки Денге (726 геномов), вируса Эбола (865 геномов) и в двух выборках геномов коронавируса SARS-CoV-2 (776 и 2132 генома). Для гриппа A H1N1 (сегмент PB2) и первого набора данных по SARS-CoV-2 (выборка по России) рекомбинантов найдено не было, что находится в согласии с анализом тех же данных алгоритмом RDP. Для второго набора данных по SARS-CoV-2 (выборка по Сибирскому федеральному округу) был правильно найден единственный присутствовавший рекомбинант. У вирусов лихорадки Денге найдено 725 рекомбинантов с длиной района рекомбинации в интервале от 50 до 1000 нуклеотидов. У вирусов Эбола длина района рекомбинации оказалась короче – у 572 рекомбинантов она находится в диапазоне от 50 до 100 нуклеотидов, у 249 геномов – менее 50 нуклеотидов.

Ключевые слова: вирусология, биоинформатика, поиск рекомбинантов, алгоритм 3SEQ, программа, многопоточность, ускорение вычислений.

Содержание Оригинальная статья
Девятериков А.П., Пальянов А.Ю. Ускорение алгоритма 3SEQ для поиска рекомбинантных геномных последовательностей за счёт многопоточности и учета дат сбора образцов. Математическая биология и биоинформатика. 2024;19(2):338-353. doi: 10.17537/2024.19.338
(опубликована на рус. яз.)

Аннотация (рус.)
Аннотация (англ.)
Полный текст (рус., pdf)
Список литературы

 

  Copyright ИМПБ РАН © 2005-2025