Генетический прогноз рецидива рака: ученые проверили, можно ли доверять компьютерным моделям
В биомедицинских исследованиях алгоритмы машинного обучения часто используются для анализа данных, например для предсказания рецидива рака. Однако не всегда ясно, находят ли эти алгоритмы значимые закономерности или подстраиваются под случайные шумы в данных. Ученые из НИУ ВШЭ, ИБХ РАН и МГУ разработали тест, который позволяет определить эту разницу. Он может стать важным инструментом для проверки надежности алгоритмов в медицине и биологии. Исследование опубликовано в цифровом архиве arXiv.
Методы машинного обучения помогают анализировать сложные биологические данные, например предсказывать вероятность рецидива рака по экспрессии генов — уровню активности участков ДНК в клетках. Однако не всегда ясно, находят ли эти алгоритмы значимые закономерности или подстраиваются под случайные шумы в данных.
Команда ученых из НИУ ВШЭ, ИБХ РАН и МГУ разработала тест, который позволяет проверить, насколько надежно классификатор различает группы пациентов. В данном случае речь идет о двух группах: те, у кого рецидив произошел, и те, у кого его не было. Если модель действительно выявляет биологически значимые различия, значит, она работает корректно. Если же алгоритм просто случайно делит данные, его точность может быть обманчиво высокой. Ученые сосредоточились на линейных классификаторах — одном из самых частых инструментов машинного обучения, применяемых в биомедицине.
Антон Жиянов
«Мы хотели проверить, насколько вероятно, что даже случайно сгенерированные (синтетические) данные можно разделить линейным классификатором не хуже, чем реальные биологические образцы. Для этого мы рассчитали верхнюю границу p-значения — число, которое показывает вероятность того, что модель “угадывает”. Чем ниже это значение, тем надежнее классификатор», — рассказывает научный сотрудник Лаборатории молекулярной физиологии НИУ ВШЭ Антон Жиянов.
Исследователи провели серию экспериментов на синтетических данных, в ходе которых могли точно контролировать степень различий между классами. Затем они применили новый тест к реальным медицинским моделям, предсказывающим риск рецидива рака молочной железы.
Оказалось, что большинство классификаторов не выявляли реальных различий между пациентами с рецидивом и без него. При дополнительной проверке 559 из 570 моделей показали случайные результаты. Это значит, что многие алгоритмы могут казаться точными, хотя на самом деле их предсказания основаны на совпадениях, а не на реальных закономерностях.
Однако исследователи нашли и надежные модели, которые выявляют биологически значимые закономерности. Одной из них оказался классификатор, который ориентировался на уровень активности генов ELOVL5 и IGFBP6. Этот алгоритм прошел дополнительную проверку на независимой выборке данных и показал, что различия в экспрессии этих генов действительно связаны с риском рецидива рака.

Каждая точка на графике — человек, у которого измерили экспрессию двух генов — IGFBP6 (по оси X) и ELOVL5 (по оси Y). Оранжевые точки — люди с рецидивом, а синие — без. На первом графике эти точки (люди) четко разделены прямой (линейным классификатором). На втором графике точки расположены хаотично, классификатор не идентифицирует закономерности между экспрессией и реальным рецидивом.
Александр Тоневицкий
«Наш тест может стать важным инструментом для проверки надежности алгоритмов в биологии и медицине. Он помогает избежать ложных выводов и сосредоточиться на моделях, которые действительно находят важные закономерности, что критично для принятия решений о лечении пациентов», — комментирует профессор факультета биологии и биотехнологии Александр Тоневицкий.
Работа выполнена при поддержке Программы фундаментальных исследований НИУ ВШЭ в рамках проекта «Центры превосходства».
Вам также может быть интересно:
Математики из нижегородской Вышки доказали существование устойчивого хаоса в сложных системах
Исследователи из Международной лаборатории динамических систем и приложений НИУ ВШЭ — Нижний Новгород разработали теорию, которая позволяет с математической точностью доказать существование устойчивого хаотического поведения в сетях взаимодействующих элементов. Работа открывает новые возможности для изучения сложных динамических процессов в нейронауке, биологии, медицине, химии, оптике и других областях. Результаты исследования приняты к публикации в ведущем международном научном журнале Physical Review Letters. С результатами исследования можно ознакомиться в архиве Arxiv.org.
Новый метод кластеризации упрощает анализ больших массивов информации
Исследователи из ВШЭ и Института проблем управления РАН предложили новый метод анализа данных — туннельную кластеризацию. Он помогает быстро находить группы похожих объектов и требует меньше вычислительных ресурсов, чем традиционные методы. В зависимости от конфигурации данных алгоритм может работать в десятки раз быстрее аналогов. Исследование опубликовано в журнале «Доклады Российской академии наук. Математика, информатика, процессы управления».
Различие алфавитов мешает билингвам быстро переключаться с языка на язык
Ученые Центра языка и мозга НИУ ВШЭ с помощью айтрекинга исследовали, как билингвы переключаются с языка на язык при смене контекста. Выяснилось, что различие алфавитов замедляет этот процесс. Если буквы выглядят необычно — например, латиница в русскоязычном тексте, — мозг не сразу переключается на другой язык, даже если человек знает, что он в билингвальной ситуации. Статья опубликована в журнале “Bilingualism: Language and Cognition”.
Ученые предложили новую теорию происхождения генетического кода
Научный консультант Международной лаборатории биоинформатики Института искусственного интеллекта и цифровых наук Алан Герберт предложил новое объяснение одной из нерешенных загадок биологии — происхождения генетического кода. Согласно исследованию, опубликованному в журнале Biology Letters, современный генетический код мог возникнуть благодаря самоорганизующимся молекулярным комплексам — тинкерам. Новую гипотезу автор выдвинул на основе анализа вторичных структур ДНК с помощью нейросети AlphaFold3.
Ученые опровергли существование кризиса доверия к науке
Международная группа исследователей, включающая специалистов из НИУ ВШЭ, провела масштабный опрос в 68 странах на тему доверия к науке. В большинстве стран люди продолжают высоко ценить работу ученых и хотят видеть их более активными участниками общественной жизни. Результаты опубликованы в Nature Human Behaviour.
Полиция и ученые обсудили, как ловить лесных браконьеров
Заведующий Международной лабораторией статистической и вычислительной геномики НИУ ВШЭ Владимир Щур принял участие в круглом столе, организованном Экспертно-криминалистическим центром МВД России. Криминалисты, биологи, генетики и математики поговорили о возможностях применения ДНК-анализа деревьев при расследовании преступлений, связанных с незаконной вырубкой леса.
Ученые ВШЭ выяснили, какие фразы труднее всего даются младшим школьникам
Психолингвисты Центра языка и мозга НИУ ВШЭ сравнили восприятие разных грамматических конструкций у младших школьников и взрослых. Эксперимент показал, что стратегии понимания сложных синтаксических конструкций формируются годами, а переход к взрослым механизмам восприятия текста происходит в конце начальной школы.Исследование опубликовано в журнале «Rhema.Рема».
Центр языка и мозга начал сотрудничество с Академией наук Республики Саха
Центр языка и мозга НИУ ВШЭ и Академия наук Республики Саха (Якутия) заключили соглашение о партнерстве. Оно открывает новые возможности для исследований малоизученных языков региона и билингвизма. Благодаря современным методам, таким как айтрекинг (технология отслеживания движений и положения глаз) и нейровизуализация, ученые смогут ответить на вопросы о том, как устроен билингвизм на уровне мозга.
Исследования и разработки: с акцентом на центры превосходства
Как управлять центрами превосходства? На каких принципах осуществлять их финансирование? Как оценивать эффективность их работы? Эти темы стали главными на заключительных сессиях секции «Глобальные тренды в области государственного инвестирования в сферу исследований и разработок», проходившей 4 апреля в рамках XIV Апрельской конференции ВШЭ.
Исследования и разработки: какими должны быть центры превосходства
4 апреля в рамках XIV Апрельской международной научной конференции ВШЭ прошла секция «Глобальные тренды в области государственного инвестирования в сферу исследований и разработок — формирование, создание и управление центрами превосходства».