Поиск протяженных повторов в геномах на основе спектрально-аналитического метода
Панкратов А.Н., Пятков М.И., Тетуев Р.К., Назипова Н.Н., Дедус Ф.Ф.
Институт математических проблем биологии РАН, 142290, Пущино, ул.Институтская, д.4
Факультет ВМК МГУ имени М.В.Ломоносова, 119991 ГСП-1,Москва, Ленинские горы
Аннотация. Разработан спектрально-аналитический подход к выявлению размытых протяженных повторов в геномных последовательностях. Метод основан на разномасштабном интегральном оценивании сходства нуклеотидных последовательностей в пространстве коэффициентов разложения фрагментов кривых GC- и GA-содержания по классическим ортогональным базисам. Найдены условия оптимальной аппроксимации, обеспечивающие автоматическое распознавание повторов различных видов (прямых и инвертированных, а также тандемных) на спектральной матрице сходства. Метод одинаково хорошо работает на разных масштабах данных. Он позволяет выявлять следы сегментных дупликаций и мегасателлитные участки в геноме, районы синтении при сравнении пары геномов. Его можно использовать для детального изучения фрагментов хромосом (поиска размытых участков с умеренной длиной повторяющегося паттерна).
Ключевые слова: сравнение геномов, аппроксимация, матрица сходства, распознавание образов, мегасателлиты, разнесенные повторы