Представила наше исследование The Russian-focused embedders’ exploration: ruMTEB benchmark and Russian embedding model design на NAACL'25, которая сейчас проходит в New Mexico. Статья на NAACL посвящена новой русско-ориентированной модели для эмбеддингов текстов ru-en-RoSBERTA и оценке эмбеддеров на русском. Обучили и выложили в открытый доступ ru-en-RoSBERTA, которая с момента релизом стала почти стандартом в области русскоязычных эмбеддеров, а также сделали бенчмарк для оценки текстовых эмбеддингов на русском ruMTEB, который затем интегрировали в мультиязычный MMTEB.
ruMTEB включает 23 датасета, разделенных на 7 типов задач, а также имеет открытый leaderboard, на котором представлены основные современные модели текстовых эмбеддингов, поддерживающие русский язык.
Спасибо всем соавторам из команд AGI NLP и RnD для B2C, которые делали это исследование вместе со мной!