Message
Repost
15
17
555
🔺 Тут коллеги недавно обновили аудиомодальность в Гигачате

🔸 Интересно это потому, что теперь работа с аудио идёт не через ASR (распознавание речи в текст) с передачей текста в обычную языковую модель, а через аудио-эмбеддинги, которые подаются в контекст LLM.

🔸 То есть все звуки, шумы, смех и пение птичек не теряются на этапе транскрибации, а обрабатываются наравне с текстовым промптом, позволяя модели "слышать" звуки.

🔸 Так как аудио-эмбеддинги предварительно сжимаются, то в контекст сейчас можно передать запись длиной более 2-х часов. Можно даже просто передать ссылку на YouTube и попросить пересказать или сделать конспект.

🔸 Попробовал сгенерить timestamp'ы по видео, но так пока не умеет. Надо, видимо, дополнительно добавлять временные метки вместе с аудио или обогащать SFT сет такими задачами.

🔸 Зато работает с любыми записями, пересказывает даже матерные стендапы.

С удовольствием почитал как ребята это сделали на уровне архитектуры и обучения, предлагаю и вам. У кого есть аккаунт, ставьте лайк.

👉 Хабр
By continuing to use our service, you agree to the use of cookies.
To find out more about how we use cookies, please review our Privacy Policy