Mashkka про Data Science • @mashkka_ds • mensagem №2334, 5 maio 2025

Mensagem

4 022 assinantes

Repostar

555

🔺 Тут коллеги недавно обновили аудиомодальность в Гигачате

🔸 Интересно это потому, что теперь работа с аудио идёт не через ASR (распознавание речи в текст) с передачей текста в обычную языковую модель, а через аудио-эмбеддинги, которые подаются в контекст LLM.

🔸 То есть все звуки, шумы, смех и пение птичек не теряются на этапе транскрибации, а обрабатываются наравне с текстовым промптом, позволяя модели "слышать" звуки.

🔸 Так как аудио-эмбеддинги предварительно сжимаются, то в контекст сейчас можно передать запись длиной более 2-х часов. Можно даже просто передать ссылку на YouTube и попросить пересказать или сделать конспект.

🔸 Попробовал сгенерить timestamp'ы по видео, но так пока не умеет. Надо, видимо, дополнительно добавлять временные метки вместе с аудио или обогащать SFT сет такими задачами.

🔸 Зато работает с любыми записями, пересказывает даже матерные стендапы.

С удовольствием почитал как ребята это сделали на уровне архитектуры и обучения, предлагаю и вам. У кого есть аккаунт, ставьте лайк.

👉 Хабр

5.05.2025, 23:50

• t.me/mashkka_ds/2334

•

Ao continuar a utilizar o nosso serviço, você concorda com o uso de cookies.
Para saber mais sobre como usamos cookies, consulte nosso Política de Privacidade