• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Исследователи НИУ ВШЭ выяснили, как нейросети понимают каламбуры

Исследователи НИУ ВШЭ выяснили, как нейросети понимают каламбуры

© iStock

Международная команда с участием исследователей ФКН НИУ ВШЭ представила KoWit-24 — корпус из 2700 русскоязычных заголовков «Коммерсанта» с игрой слов. Корпус позволил оценить, как искусственный интеллект распознает и объясняет языковую игру. Эксперименты с пятью большими языковыми моделями подтвердили: даже передовые системы пока ошибаются, причем интерпретация игры слов является для них более сложной задачей, чем ее выявление. Результаты работы были представлены на конференции RANLP, cтатья доступна в репозитории Arxiv.org, датасет и код для воспроизведения экспериментов — в GitHub.

Игра слов — это прием, когда автор специально ломает норму языка ради эффекта: чтобы привлечь внимание, усилить иронию или вызвать улыбку. В российских новостных заголовках такие приемы встречаются часто и могут выглядеть по-разному. Например, «Особо бумажные персоны» обыгрывает фразу «особо важные персоны»: «важные» рифмуются с «бумажные», и смысл сдвигается к производству бумаги. Или «Код накликал» звучит почти так же, как идиома «кот наплакал» (очень мало), что создает шутливую двусмысленность. 

Для читателя такая игра слов очевидна и заголовки не нуждаются в пояснении. Однако современные большие языковые модели, например ChatGPT или GigaChat Max, часто теряются: им трудно заметить каламбур и тем более объяснить, на чем построена шутка. Одна из причин — это ограниченность наборов данных, на которых обучаются языковые модели. Чаще всего юмор в них представлен короткими шутками из интернета, которые помечены ярлыком «шутка». Этого мало, чтобы алгоритм понял, почему это смешно. Кроме того, у таких наборов почти нет разметки — понятных машине и человеку слоев описания, которые могут показывать, есть ли там игра слов или нет, какой это тип приема, к чему отсылает заголовок и т.д.

Исследователи факультета компьютерных наук НИУ ВШЭ вместе с коллегами из Австрийского университета междисциплинарных трансформаций, а также независимыми исследователями создали набор данных KoWit-24. Он содержит 2700 заголовков «Коммерсанта» за январь 2021 года — декабрь 2023-го с контекстом: к каждому заголовку приложены подводка к статье, название рубрики и краткое описание сюжета. Для примеров с игрой слов авторы вручную отметили тип приема, выделили «якоря» — ключевые слова, где происходит смысловой сдвиг, указали исходные выражения и добавили ссылки на статьи в «Википедии» там, где это возможно.

Авторы работы использовали определение лингвиста Алана Скотта Партингтона: игра слов возникает, когда одна и та же фраза читается минимум двумя способами, и этот эффект не случаен. При этом игра слов может возникать в нескольких случаях. Первый, когда двусмысленность заложена в самом слове или в его звучании. Например, заголовок «“Волгу” не могут заставить течь быстрее»: «Волга» здесь и река, и название федеральной трассы. Второй — легкая переделка известной фразы или названия: автор меняет форму, а читатель узнает исходник и достраивает шутку. Например, «Миссия сократима» отсылает к фильму «Миссия невыполнима» и одновременно намекает, что дипломатическую миссию можно сократить.

Исследователи отдельно выделили окказионализмы (разовые неологизмы под задачу) и оксюмороны (сочетание противоположных смыслов). Все это позволило не только собрать и описать примеры, но и сравнить разные языковые модели между собой.

После разметки авторы проверили корпус на пяти больших языковых моделях: GPT-4o, YandexGPT4, GigaChat Lite, GigaChat Max и Mistral NeMo. Моделям давали заголовок и подводку к новости и просили решить две задачи: сначала определить, есть ли в заголовке игра слов, а затем объяснить ее, то есть назвать исходную фразу или отсылку. При этом исследователи сравнивали два режима подсказок: короткий вопрос «Есть ли игра слов?» и расширенную инструкцию, в которой объясняется, что считать игрой слов, и приводятся примеры разных типов. Трем моделям из пяти более подробные инструкции помогали в распознавании игры слов, а лучшую точность показала GPT-4o. При этом интерпретировать источник шутки всем моделям заметно сложнее, чем просто фиксировать, что игра слов есть.

Павел Браславский

«KoWit-24 закрывает две ключевые проблемы прежних наборов — дает контекст к каждому заголовку и многоуровневую разметку. Это превращает подборку примеров в полноценный “тестовый стенд” для ИИ. Теперь можно объективно сравнивать модели между собой: видит ли модель сам факт игры слов, находит ли “якорь”, правильно ли восстанавливает исходную фразу или отсылку. Такие проверяемые метрики помогают не только точнее оценивать текущие системы, но и целенаправленно их улучшать — подбирать формулировки подсказок, обучающие примеры и стратегии проверки фактов. В будущем мы хотим исследовать, можно ли с помощью этого набора улучшить генерацию шуток», — отмечает один из авторов работы, доцент факультета компьютерных наук НИУ ВШЭ Павел Браславский.

Кроме того, корпус задает общий понятный стандарт оценки: исследователи работают с одними и теми же данными и сценариями экспериментов. Это уменьшает «шум» в результатах и помогает создавать модели, которые лучше понимают живой язык, а не просто следят за логикой текста.

Вам также может быть интересно:

Зеленый энергопереход: от мифов к реалиям

В 2025 году в Вышке стартовал стратегический технологический проект (СТП) «Национальный центр социально-экономического и научно-технологического прогнозирования». Институт экономики природных ресурсов и изменения климата ВШЭ формирует прогнозы развития мировой и российской экономики и энергетики с учетом фактора «зеленой трансформации». Игорь Макаров, директор института и руководитель департамент мировой экономики, рассказал о глобальном ландшафте климатического регулирования, «черных лебедях» и роли ИИ в борьбе с изменением климата.

Стратегические технологические проекты Вышки в 2025 году

В 2025 году Высшая школа экономики продолжила участие в программе стратегического академического лидерства «Приоритет-2030», обеспечив фокус на технологическое лидерство согласно новой рамке программы «Приоритет-2030». Важный элемент стратегии технологического лидерства университета — стратегические технологические проекты, направленные на создание востребованных наукоемких продуктов и услуг.

Переход к устойчивому развитию требует глубокой структурной трансформации бизнеса

Группа ученых предложила оценивать ESG-трансформацию бизнеса через коэффициент смены партнеров в цепочках сырьевых и сбытовых поставок. Исследователи отмечают, что путь к устойчивости требует глубокой и зачастую затратной перестройки партнерской сети. Этот и другие доклады были представлены на III Международной ежегодной конференции “ESG Corporate Dynamics: the Challenges for Emerging Capital Markets”.

МИЭМ и «ИнфоВотч» разработали сценарии для систем защиты информации от внутренних угроз

Сценарии позволяют моделировать инциденты, выявлять и анализировать действия инсайдеров, противодействовать фишинговым атакам, выстраивать политику защиты и готовить заключения по результатам расследований. Они прошли полномасштабную апробацию в рамках чемпионата профессионального мастерства «Профессионалы».

Вышка Онлайн в четвертый раз стала победителем премии «Эффективное образование»

Проект онлайн-кампуса НИУ ВШЭ «Обучаем навыкам будущего: ИИ-портал Вышки» стал победителем в номинации «Образовательная экосистема года в области ИИ». Награда «Эффективное образование» вручается с 2017 года за лучшие проекты и практики в области корпоративного обучения и развития образования.

Создавать условия для жизни и развивать инфраструктуру: как сделать Сибирь модной

В Вышке проходит Всероссийская научно-практическая конференция «II Тобольские чтения», организованная факультетом мировой экономики и мировой политики НИУ ВШЭ. Эксперты, ученые, представители власти, бизнеса и культуры обсуждают вопросы сибиризации России — сдвига центра развития страны к Уралу и Сибири. В работе конференции принял участие заместитель руководителя Администрации Президента РФ Максим Орешкин.

ИИ в науке: страхи и чаяния российских ученых

Искусственный интеллект стал привычным инструментом в ряде стран, однако в российской науке его внедрение пока остается фрагментарным. К такому выводу пришли авторы первого в стране комплексного исследования использования технологий ИИ в научной деятельности. Они провели интервью с ведущими российскими учеными и расспросили их о сферах применения, возможностях и барьерах технологии.

«Снижает трудозатраты»: что дает разработанная в ВШЭ платформа поддержки природно-климатических проектов

В НИУ ВШЭ прошла презентация первой российской цифровой платформы для оценки  природно-климатических проектов. Она была разработана в 2025 году в Центре цифровых технологий для природно-климатических проектов НИУ ВШЭ при поддержке Минобрнауки РФ в рамках программы карбоновых полигонов. Платформа  помогает компаниям и госорганам оценить, где и каким образом реализовывать проекты и какова будет их экономическая эффективность.  Инструмент снижает трудозатраты и позволяет принимать быстрые управленческие решения, отметили эксперты.

Ученые ВШЭ приняли участие в разработке постквантовой кольцевой подписи для Сбера

Новый криптографический механизм защиты данных был предложен совместно экспертами Московского института электроники и математики им. А.Н. Тихонова ВШЭ, Сбера и ООО «КуАпп». Российским ученым удалось создать постквантовую кольцевую подпись, которая позволяет обеспечить анонимность (с точностью до группы участников), целостность и аутентификацию источника цифровых транзакций в случае появления нарушителя, который обладает квантовым вычислителем.

«Национальные символы государств являются неотъемлемой частью культурного кода»

В декабре 2025 года в Высшей школе экономики прошел первый Форум Консорциума юридических школ БРИКС, организованный факультетом права НИУ ВШЭ. В нем приняли участие 42 иностранных делегата (в том числе 10 деканов) из 14 университетов Беларуси, Китая, ЮАР, Индии и Индонезии. В рамках форума прошли экспертные дискуссии, подписаны соглашения о сотрудничестве, приняты решения о дальнейших направлениях деятельности Консорциума юридических школ БРИКС, созданного по инициативе факультета права Вышки.