«Своему мягкому переходу в новую эру компьютерного зрения я обязан академической среде ВШЭ»
В этом учебном году в Вышке стартовала первая магистерская онлайн-программа “Master of Computer Vision” под руководством профессора Андрея Савченко. В рамках новой магистратуры Александр Рассадин, выпускник факультета информатики, математики и компьютерных наук НИУ ВШЭ — Нижний Новгород, активный участник многих CV-проектов, читает курс “Deep Learning for Сomputer Vision”. Александр рассказал, как однажды написанный алгоритм для движения робота открыл для него профессию мечты и почему анализировать спортивные игры интереснее, чем прогнозировать цунами.
Когда вы заинтересовались компьютерным зрением?
Я увлекся этим направлением в 2014 году, когда окончил бакалавриат в другом институте и поступил там же в магистратуру — по инерции, как говорится. В рамках научной деятельности я занимался математическими моделями, такими как прогнозирование цунами.
Магистерская программа “Master of Computer Vision” разработана в нижегородском кампусе Вышки учеными факультета информатики, математики и компьютерных наук и лидерами индустрии компьютерного зрения — экспертами Huawei, itSeez3D, Intel, Harman и Xperience.ai. С тех пор как в начале нулевых компания Intel разработала в Нижнем Новгороде библиотеку OpenCV, город стал значимым мировым центром направления «Компьютерное зрение». Создатели библиотеки работают в ведущих IT-компаниях и привлекают выпускников нижегородского кампуса для работы в индустрии Computer Vision.
Параллельно работал программистом на полставки. Еще со школы я увлекался алгоритмами, но всегда хотел делать что-то осязаемое, что можно будет попробовать в реальной жизни, рассказать или показать кому угодно, даже человеку без профессиональных навыков. К сожалению, ни связанная с решением уравнений научная деятельность, ни работа с багфиксингом (процесс устранения неисправностей в ПО. — Ред.) не позволяли мне раскрыться.
Однажды в рамках курса по робототехнике я выбрал задачу написания алгоритма движения робота по указателям на поверхности. Я сразу почувствовал, что это мое. Я не имел на тот момент никакого опыта в компьютерном зрении и вообще не очень представлял, что это такое. Тем не менее успешно защитил проект: сегментировал стрелки на полу с помощью библиотеки OpenCV. Дальше я хотел заниматься только чем-то подобным.
Не прошло и трех месяцев, как мой проект на работе закрылся, но был объявлен набор в новый стартап по компьютерному зрению. До сих пор не могу поверить, что прошел отбор и попал туда. Уже через год мне доверили управление небольшой командой. Этого не случилось бы, займись я какой-то другой тематикой. Я отдавал себя полностью новой сфере, чего раньше просто не делал.
Способствовала ли учеба в Вышке вашему развитию в индустрии?
Именно увлечение CV подтолкнуло сменить университет на ВШЭ. Во время учебы в магистратуре в другом вузе я разочаровался в образовании и научной деятельности. Я не видел ни перспектив профессионального развития, ни возможности построить карьеру: одногруппники работали обычными программистами или на кафедре.
Системы и приложения Computer Vision позволяют извлекать информацию из массива изображений, который аккумулируют машины, и классифицировать ее для выявления закономерностей, построения прогнозов и банального избавления человека от рутинных задач. Технологии CV с каждым годом становятся более «зоркими». Еще пять-десять лет назад машины распознавали всего 65–70% объектов. Сегодня компьютеры узнают уже до 98% объектов.
По мере взросления как специалиста по CV эти мысли только укреплялись. В итоге я принял радикальное решение — сменить магистратуру по ходу обучения. Это оказалось единственно верным решением. Основной корпус ВШЭ (в Нижнем Новгороде. — Ред.) находился на соседней улице, я уже общался со студентами и преподавателями Вышки, поэтому в целом университет не был для меня чужим. Поступив, я понял, что выбранная программа максимально приближена к тому, что я искал, попадание иногда было стопроцентное. Например, на работе мы разрабатывали модели для распознавания лиц и одновременно изучали эту же тему на курсе.
С первых дней учебы я начал жадно заполнять пробелы в знаниях. Коллеги были старше и заметно опытнее, общение с ними крайне помогало расти в профессии. На тот период приходится закат классического компьютерного зрения — без нейронных сетей или с минимальным их количеством. Таким образом, я оказался ровно на границе эпох, и именно академической среде ВШЭ я обязан относительно мягкому переходу в новую эру. Без знаний и людей, которые меня окружали, перестроиться было бы гораздо сложнее. Приблизительно через год после поступления Андрей Савченко пригласил меня в научную группу, чтобы не просто применять нейросетевые методы, а заниматься их исследованием и развитием.
В каких именно проектах и разработках в области CV вы принимали участие?
Большую часть своей профессиональной деятельности я посвятил решениям в области видеонаблюдения: выделение объектов на кадре, их анализ — определение статических и динамических характеристик, видимых и невидимых атрибутов, анализ их действия, распознавание личности человека и домашних питомцев и т.п. Последний год мой профессиональный интерес сконцентрирован на области спортивной аналитики: анализ спортивных игр, подсчет игровых статистик, персональные тренеры и ассистенты. Часть карьеры я посвятил анализу трехмерного мира (анализ сцен и человека) и медицинских снимков.
Как российская индустрия компьютерного зрения выглядит на мировом рынке?
Массовый переход от классического CV к нейросетевому у нас в стране начался, как мне кажется, ближе к 2016 году. За год до этого звучали первые разговоры о нейросетях, пилотных проектах. Уже в 2017-м произошел настоящий бум — проекты Prisma, MSQRD, FindFace и многие другие.
В мире технологии компьютерного зрения активно применяются во многих цифровых отраслях: в системе «Умный город», интеллектуальных транспортных системах, высокотехнологичном сельском хозяйстве и пр. Диапазон областей и сценариев применения CV постоянно увеличивается.
Технологии CV широко применяются в медицине, делая диагностику предельно точной, а последующее лечение — максимально эффективным. Компания Microsoft разработала систему CV InnerEye: она отображает на мониторе врача возможные опухоли и другие аномальные образования по данным компьютерной томографии.
Компьютерное зрение также помогает достичь целей ООН по удвоению сельскохозяйственного производства для пропитания всех жителей планеты. На его основе созданы системы точного, или прецизионного, земледелия, позволяющие повысить урожайность. Кроме того, компьютеры помогают оценивать вес свиней по видеоизображениям и определять зрелость урожая.
Сегодня наша страна, как мне кажется, не отстает от глобальных трендов. В немалой степени это заслуга Open Data Science community, которое делает гигантскую работу по привлечению людей в область, поддержке и развитию профессионалов. Я не люблю делать прогнозы, потому что трудно прогнозировать столь быстро развивающуюся область. Сейчас огромный акцент в исследованиях делается на честный, непредвзятый, интерпретируемый AI и в целом решения, направленные на социальные блага, хотя не могу сказать, что сейчас таких разработок большинство. Много делается для автоматизации производства, нельзя не отметить лавинообразный рост качества NLP-моделей и решений на их базе. С технической точки зрения методы из этих двух областей все больше стремятся к унификации. Количество проектов по анализу медицинских изображений растет в геометрической прогрессии, и уже можно видеть реальные внедрения — это при том, что сертификация и клиническое применение таких разработок — невероятно долгое и сложное дело.
В рамках программы вы будете читать курс “Deep Learning for Сomputer Vision”. Чем он может быть интересен студентам?
Курс посвящен основным техникам нейросетевого двухмерного компьютерного зрения. Мы работаем с изображениями и видео, полученными с обычных монокулярных камер. Студенты учатся классифицировать изображения, детектировать и сегментировать объекты на них, следить за объектами, а также распознавать людей по лицу и телу. Данные разделы являются базовыми для большинства задач, и в особенности для задач, связанных с видеонаблюдением. Мы изучим современное состояние области (некоторые рассматриваемые методы появились в 2020 году) и проследим их эволюцию. Познакомимся с основными наборами данных — ключевой компонент современного CV, методами оценки качества нейросетевых алгоритмов и доступными решениями. Весь материал подкреплен практическими примерами, а также индивидуальными и групповыми заданиями. Фактически студент, успешно прошедший данный курс, сможет собрать свое первое решение в области видеонаблюдения.
Образное мышление: история развития компьютерного зрения
В 1960 году был построен аппарат для считывания зрительных образов — Mark I Perceptron, но из-за скудного технического оснащения он не мог справиться с решением задач машинного зрения. В 1960-е начали появляться первые программы для обработки изображений.
В 1970-е аспирант MIT Лоуренс Робертс первым предложил рабочую концепцию построения трехмерных образов объектов на основе анализа их двухмерных изображений. В этот период развиваются различные подходы к распознаванию объектов на изображении: по текстуре, структуре, признаку.
В 80-е годы американская компания Automatix стала пионером использования систем компьютерного зрения в бизнесе: она разработала для паяния микросхем несколько машин с камерами, которые отправляли снимки процессору.
В 80–90-е годы появились датчики двухмерных цифровых информационных полей, которые позволили получать для анализа устойчивые во времени изображения. На середину 90-х годов пришелся запуск первых коммерческих систем автоматической навигации автомобилей. В конце 90-х на рынок вышли эффективные средства компьютерного анализа движений. В 2012 году в индустрии компьютерного зрения совершилась революция: на конкурсе распознавания изображений ImageNet были впервые применены глубокие сверхточные нейронные сети. Алгоритмы CV значительно расширились, произошел бум тематических мобильных приложений.
Материал подготовила Екатерина Зиньковская, Дирекция по онлайн-обучению НИУ ВШЭ
Рассадин Александр Георгиевич