Mashkka про Data Science • @mashkka_ds • message №2322, 3 May 2025

Your trial period has ended!

For full access to functionality, please pay for a premium subscription

Message

3 801 subscribers

708

🎤Мы на NAACL'25

Представила наше исследование The Russian-focused embedders’ exploration: ruMTEB benchmark and Russian embedding model design на NAACL'25, которая сейчас проходит в New Mexico. Статья на NAACL посвящена новой русско-ориентированной модели для эмбеддингов текстов ru-en-RoSBERTA и оценке эмбеддеров на русском. Обучили и выложили в открытый доступ ru-en-RoSBERTA, которая с момента релизом стала почти стандартом в области русскоязычных эмбеддеров, а также сделали бенчмарк для оценки текстовых эмбеддингов на русском ruMTEB, который затем интегрировали в мультиязычный MMTEB.

ruMTEB включает 23 датасета, разделенных на 7 типов задач, а также имеет открытый leaderboard, на котором представлены основные современные модели текстовых эмбеддингов, поддерживающие русский язык.

Спасибо всем соавторам из команд AGI NLP и RnD для B2C, которые делали это исследование вместе со мной!

✔️Статья
✔️Модель ru-en-RoSBERTA
✔️Leaderboard
✔️Пост на хабр
✔️Постер
✔️Видео с докладом
✔️Презентация

@mashkka_ds

#mashkka_usa #новостисполей #трудовыебудни

05/03/2025, 22:19

t.me/mashkka_ds/2322