Русская версия English version   
Том 14   Выпуск 2   Год 2019
Очистка данных от диагностических ошибок в признаковых пространствах большой размерности

Борисова И.А., Кутненко О.А.

Институт математики им. С.Л. Соболева СО РАН, Новосибирск, Россия

Аннотация. В статье предлагается новый подход к цензурированию данных, позволяющий очищать выборки от диагностических ошибок в целевом признаке в случае, когда эти выборки описаны в признаковых пространствах большой размерности. Рассмотрение данного случая как отдельной задачи объясняется тем, что в пространствах большой размерности перестают работать большинство методов цензурирования и очистки данных, как статистических, так и метрических. При этом для задач медицинской диагностики, учитывая сложность изучаемых объектов и явлений, большое количество описывающих характеристик является скорее нормой, чем исключением. Для решения поставленной задачи предложен подход, ориентированный на локальное сходство между собой объектов выборки и использующий в качестве меры сходства функцию конкурентного сходства (FRiS-функцию). В предложенном подходе для эффективной очистки данных от ошибок происходит выбор наиболее информативного и релевантного решаемой задаче признакового подпространства малой размерности, в котором разделимость классов после их корректировки будет максимальна. Под разделимостью классов понимается похожесть объектов одного класса друг на друга и их непохожесть на объекты другого классов. Очистка от ошибок может выражаться как в их исправлении, так и в удалении испорченных объектов из выборки. Описанный метод был реализован в виде алгоритма FRiS-LCFS (FRiS Local Censoring with Feature Selection) и протестирован на модельных и реальных биомедицинских задачах, в том числе и на задаче диагностики рака простаты по результатам измерения генной активности. Разработанный алгоритм показал свою конкурентоспособность по сравнению со стандартными методами, фильтрации данных в пространствах большой размерности.

Ключевые слова:
распознавание образов, функция конкурентного сходства, компактность образов, разделимость классов, цензурирование объектов, выбор признаков.

Содержание Оригинальная статья
Мат. биол. и биоинф.
2019;14(2):464-476
doi: 10.17537/2019.14.464
опубликована на рус. яз.

Аннотация (рус.)
Аннотация (англ.)
Полный текст (рус., pdf)
Список литературы

 

  Copyright ИМПБ РАН © 2005-2024