ИИ «понимает» запрос со знаками препинания на 20% лучше, чем без них
Отсутствие знаков препинания и артиклей в запросе для языковой модели снижает её точность на 20% — такой вывод
сделали учёные Института AIRI. Малозначимые, по мнению многих пользователей, элементы языка оказались ключевыми в работе чат-ботов и виртуальных помощников.
Текст для ИИ — это последовательность единиц, которые называются токенами.
В первом из двух экспериментов специально обученная языковая модель восстанавливала текст, предшествующий каждому конкретному токену. При этом она должна была учитывать элементы, которые не несут большого смысла сами по себе — знаки препинания, стоп-слова (например, артикли, предлоги и союзы). Оказалось, что именно в них хранится большая часть информации о контексте: текст, предшествующий им, модель «угадывала» точнее всего.
Во втором эксперименте использовали наборы задач MMLU и BABILong, которые позволяют оценить возможности языковых моделей. Они включают в себя генерацию ответов на вопросы разного формата, выявление закономерностей, выводы на основе предоставленной информации.
Авторы исследования сравнивали точность нескольких моделей при работе с запросами пяти типов: 1) без стоп-слов, 2) без знаков препинания, 3) без артиклей (другие стоп-слова сохранялись), 4) без стоп-слов и знаков препинания, 5) без отдельных стоп-слов и знаков препинания, которые назвала незначимыми для ChatGPT4o. Этот эксперимент подтвердил результаты предыдущего: без «малозначимых» элементов точность снижалась. Сильнее всего на неё влияло отсутствие пунктуации и артиклей.
«Глубокое понимание того, как модели принимают решения, поможет сделать их не только эффективнее, но и безопаснее. Сейчас мы стремимся улучшить управляемость рассуждений языковых моделей, чтобы упростить их обучение и повысить качество»,
— рассказал Антон Разжигаев, руководитель группы «Интерпретируемый ИИ» в лаборатории FusionBrain Института AIRI.
Как ИИ помогает человеку в исследованиях:
-
депрессию можно выявить по речи,
-
«переводчик» с русского жестового языка создали в Саратове,
-
у речи человека и птиц нашли общие корни.
#новости_изборник