Your trial period has ended!
For full access to functionality, please pay for a premium subscription
Message
19
7
708
🎤Мы на NAACL'25

Представила наше исследование The Russian-focused embedders’ exploration: ruMTEB benchmark and Russian embedding model design на NAACL'25, которая сейчас проходит в New Mexico. Статья на NAACL посвящена новой русско-ориентированной модели для эмбеддингов текстов ru-en-RoSBERTA и оценке эмбеддеров на русском. Обучили и выложили в открытый доступ ru-en-RoSBERTA, которая с момента релизом стала почти стандартом в области русскоязычных эмбеддеров, а также сделали бенчмарк для оценки текстовых эмбеддингов на русском ruMTEB, который затем интегрировали в мультиязычный MMTEB.

ruMTEB включает 23 датасета, разделенных на 7 типов задач, а также имеет открытый leaderboard, на котором представлены основные современные модели текстовых эмбеддингов, поддерживающие русский язык.

Спасибо всем соавторам из команд AGI NLP и RnD для B2C, которые делали это исследование вместе со мной!

✔️Статья
✔️Модель ru-en-RoSBERTA
✔️Leaderboard
✔️Пост на хабр
✔️Постер
✔️Видео с докладом
✔️Презентация

@mashkka_ds

#mashkka_usa #новостисполей #трудовыебудни
05/03/2025, 22:19
t.me/mashkka_ds/2322