Большие данные в биоинформатике
Назипова Н.Н., Исаев Е.А., Корнилов В.В., Первухин Д.В., Морозова А.А., Горбунов А.А., Устинин М.Н.
Институт математических проблем биологии РАН – филиал Федерального государственного учреждения "Федеральный исследовательский центр Институт прикладной математики им. М.В. Келдыша Российской академии наук", Пущино
Национальный исследовательский университет «Высшая школа экономики», Москва
Союз предприятий Центральное научно-производственное объединение «КАСКАД», Москва
Аннотация. Секвенирование человеческого генома началось в 1994 году. Понадобилось 10 лет работы многих научных коллективов для того, чтобы получить черновую последовательность ДНК человека. Современные технологии секвенирования позволяют получать геном конкретного человека за несколько дней. Обсуждаются успехи современной биоинформатики, связанные с появлением высокопроизводительных платформ секвенирования, которые не только способствовали расширению возможностей различных направлений биологии и других смежных наук, но и породили феномен больших данных. Обосновывается необходимость разработки новых технологий и методов для организации хранения, управления, анализа и визуализации больших данных. Современная биоинформатика столкнулась не только с проблемой больших данных, но и с огромным разнообразием методов обработки и представления, одновременным существованием различных программных средств и форматов данных. Обсуждаются пути решения возникших проблем, в частности путем использования разработок из других областей современной жизни, таких как сетевой анализ и анализ деловых данных. Новые системы хранения данных, отличные от реляционных, помогут решить проблему архивирования и обеспечения приемлемого времени выполнения поисковых запросов. Новые технологии программирования, а именно обобщенное программирование и визуальное программирование могут решить проблему разнообразия форматов геномных данных и обеспечить возможность оперативного создания скриптов для обработки данных.
Ключевые слова: большие данные, Big Data, NGS, секвенирование генома, IT-технологии, биоинформатика, обобщенное программирование, визуальное программирование, нереляционные системы управления базами данных, NoSQL системы, Hadoop, MapReduce.