Метод главных компонент в таргетном подходе к определению рода коронавирусов
Чалей М.Б.1, Кутыркин В.А.2
1Институт математических проблем биологии – филиал ИПМ им. М.В. Келдыша РАН, Пущино, Московская область, Россия
2Московский государственный технический университет им. Н.Э. Баумана, Москва, Россия
Аннотация. Предложен оригинальный подход к классификации коронавирусов, основанный на представлении анализируемого гена (N-гена белка нуклеокапсида) соответствующим вектором частот кодонов аминокислот и его последующего сравнения с вектором усредненных частот кодонов для аналогичных известных генов вирусного таксона (одного из четырех родов коронавируса). Для определения принадлежности анализируемого вектора частот к каждому рассматриваемому таксону нестандартным образом применяется метод главных компонент. Метод протестирован на 5769 N-генах коронавирусов четырех родов и показал надежность распознавания рода выше 95 %. Предлагаемый подход к классификации коронавирусов позволяет сократить размерность вектора частот кодонов до 28 компонент без снижения надежности, ограничиваясь рассмотрением наиболее значимых частот встречаемости кодонов аминокислот в N-гене. Подход относится к методам без выравнивания, которые в последнее десятилетие завоевывают все большую популярность для классификации вирусов.
Ключевые слова: N-ген, коронавирусы, классификация, методы без выравнивания, метод главных компонент