Очистка данных от диагностических ошибок в признаковых пространствах большой размерности
Борисова И.А., Кутненко О.А.
Институт математики им. С.Л. Соболева СО РАН, Новосибирск, Россия
Аннотация. В статье предлагается новый подход к цензурированию данных, позволяющий очищать выборки от диагностических ошибок в целевом признаке в случае, когда эти выборки описаны в признаковых пространствах большой размерности. Рассмотрение данного случая как отдельной задачи объясняется тем, что в пространствах большой размерности перестают работать большинство методов цензурирования и очистки данных, как статистических, так и метрических. При этом для задач медицинской диагностики, учитывая сложность изучаемых объектов и явлений, большое количество описывающих характеристик является скорее нормой, чем исключением. Для решения поставленной задачи предложен подход, ориентированный на локальное сходство между собой объектов выборки и использующий в качестве меры сходства функцию конкурентного сходства (FRiS-функцию). В предложенном подходе для эффективной очистки данных от ошибок происходит выбор наиболее информативного и релевантного решаемой задаче признакового подпространства малой размерности, в котором разделимость классов после их корректировки будет максимальна. Под разделимостью классов понимается похожесть объектов одного класса друг на друга и их непохожесть на объекты другого классов. Очистка от ошибок может выражаться как в их исправлении, так и в удалении испорченных объектов из выборки. Описанный метод был реализован в виде алгоритма FRiS-LCFS (FRiS Local Censoring with Feature Selection) и протестирован на модельных и реальных биомедицинских задачах, в том числе и на задаче диагностики рака простаты по результатам измерения генной активности. Разработанный алгоритм показал свою конкурентоспособность по сравнению со стандартными методами, фильтрации данных в пространствах большой размерности.
Ключевые слова: распознавание образов, функция конкурентного сходства, компактность образов, разделимость классов, цензурирование объектов, выбор признаков.