У вас закончился пробный период!
Для полного доступа к функционалу, пожалуйста, оплатите премиум подписку
Возраст канала
Создан
Язык
Русский
2.03%
Вовлеченность по реакциям средняя за неделю
6.03%
Вовлеченность по просмотрам средняя за неделю

HuggingFace: https://huggingface.co/Den4ikAI

GitHub: https://github.com/Den4ikAI

Донат: https://pay.cloudtips.ru/p/b9d86686

Личка: https://t.me/bceloss

Сообщения Статистика
Репосты и цитирования
Сети публикаций
Сателлиты
Контакты
История
Топ категорий
Здесь будут отображены главные категории публикаций.
Топ упоминаний
Здесь будут отображены наиболее частые упоминания людей, организаций и мест.
Найдено 19 результатов
DE
Den4ik Research
949 подписчиков
17
9
401
Запускаю наш с Захаром рисерч по кодекам для ттс. Также первые звуки модели:
25.04.2025, 07:43
t.me/den4ikresearch/98
DE
Den4ik Research
949 подписчиков
82
19
813
БВИ по матану в кармане
11.04.2025, 15:56
t.me/den4ikresearch/97
DE
Den4ik Research
949 подписчиков
8
1
589
4.04.2025, 19:23
t.me/den4ikresearch/96
DE
Den4ik Research
949 подписчиков
15
2
498
Дайте нам 8 H100 на трейн своего кодека))
3.04.2025, 11:34
t.me/den4ikresearch/95
DE
Den4ik Research
949 подписчиков
15
5
652
Вот так бывает.... Сидишь с другом ночами, пишете код, а потом оказывается, что в чекпоинте нет дискриминатора
3.04.2025, 11:25
t.me/den4ikresearch/94
DE
Den4ik Research
949 подписчиков
15
470
И да, я в мск
30.03.2025, 03:24
t.me/den4ikresearch/93
DE
Den4ik Research
949 подписчиков
3
505
Наука не дремлет


И мы c @vf_science тоже
30.03.2025, 03:21
t.me/den4ikresearch/92
DE
Den4ik Research
949 подписчиков
18
2
472
30.03.2025, 03:21
t.me/den4ikresearch/91
DE
Den4ik Research
949 подписчиков
Репост
11
6
209
DiffRhythm: Blazingly Fast and Embarrassingly Simple End-to-End Full Length Song Generation with Latent Diffusion
[paper] | [code] | [hf_demo]

Опенсурс для генерации музыки развивается 👍

Теперь, в отличие от YuE у нас первая модель для генерации полного трека на латентной диффузии — DiffRhythm. Можно генерить треки длительностью до 4 минут 45 секунд с вокалом и аккомпанементом значительно быстрее всяких авторегрессионок, очевидно) Модель основана на двух последовательно обученных компонентах: VAE и DiT (рис. 1).

VAE основан на Stable Audio 2 и отличается полностью сверточной архитектурой, чтобы обрабатывать аудио произвольной длины. Учится на реконструкцию качественных треков и для лучшей устойчивости делают аугументацию имитирующую MP3-сжатие. Входные данные случайно сжимаются с переменным битрейтом, а на выходе мы также хотим качественное аудио. Также накинули 2 лосса: multi-resolution STFT и adversarial, дискриминатор сделали в 4 раза больше, чем в Stable Audio, чтобы моделька видела больше деталей и реконструкция была лучше.

DiT в DiffRhythm отвечает за генерацию латентных представлений и адаптирован для работы с длинными музыкальными последовательностями. Принимает 3 кондишна:
*️⃣ Стиль. Короткий аудиофрагмент обрабатывается через LSTM, где финальное скрытое состояние используется как глобальная информация о стиле.
*️⃣ Временной шаг. Embedding текущего шага диффузии суммируется со стилевым признаком, формируя глобальное условие.
*️⃣ Текст песни. Преобразуется в фонемы через grapheme-to-phoneme (G2P) конверсию, затем встраивается в непрерывные эмбеддинги через слой embedding. Эти признаки конкатенируются с зашумлённым латентным представлением и подаются в DiT.

DiT состоит из 16 слоёв декодера LLaMA с 2048-мерным скрытым размером и 32 головами внимания (64 измерения на голову), что составляет 1.1 миллиарда параметров. Для оптимизации используются FlashAttention2, дабы ускорить вычисления внимания для длинных последовательностях и gradient checkpointing, дабы снизить потребление памяти при обучении. Также применяется 20% dropout к стилю и тексту для поддержки classifier-free guidance (CFG) с масштабом 4 на инференсе. Учится это все дело с conditional flow matching, где моделька учится преобразовывать шум в данные через ODE. Музыка генерится за 32 шага с Euler ODE солвером и на протяжении всего трека музыка остается цельной, то есть мы получаем не набор случайных звуков))

Но, пожалуй, самое главное в этой работе — это алаймент текста и латентных представлений. Вокальные сегменты часто прерываются длительными инструментальными частями, что создаёт разрывы в временной последовательности. Также одни и те же слова могут звучать по-разному из-за различного аккомпанемента, что усложняет выравнивание. Авторы сказали, что всякий кросс-аттеншн или прямая конкатенация фичей не позволяют генерить разборчивые песни. Поэтому авторы предлагают выравнивание на уровне предложений, требующее только аннотаций начала предложений t_i_start (рис. 2) и делают его так:
*️⃣ Преобразуют текст в последовательность фонем через G2P преобразование
*️⃣ Инициализуют последовательность для алаймента P_i длиной L_max (4м45с), которая полностью заполнена падингами
*️⃣ Размещение фонем p_i в P_i на позициях, соответствующих временным меткам (𝑓_𝑖_start=[𝑡_𝑖_start * 𝐹_𝑠], где 𝐹_𝑠=21.5Гц)

Такой алаймент уменьшает потребность в детальных аннотациях, расходы на подготовку датасета и разборчивость вокала становится лучше. Бьютифул.

А теперь мои мысли: делать ллама подобные сетки с кучей аудио токенов, каким то ризонингом на лирику здорово, но можно делать как DiffRhythm. Авторегрессия, к слову, хорошая тем, что с ней можно учить все, этот подход универсален. Foundation моделей на диффузии я пока не видел (upd: видел). Ну и наверное авторегрессия хорошая для бизнеса, который может дать деняк, взять авторегрессию и поскейлить модельки, чтобы решить большинство возникающих задач. Что думаете?

#music #papers
5.03.2025, 16:01
t.me/den4ikresearch/89
DE
Den4ik Research
949 подписчиков
Репост
11
726
5.03.2025, 16:01
t.me/den4ikresearch/90
DE
Den4ik Research
949 подписчиков
Репост
1
DiffRhythm: Blazingly Fast and Embarrassingly Simple End-to-End Full Length Song Generation with Latent Diffusion
[paper] | [code] | [hf_demo]

Опенсурс для генерации музыки развивается 👍

Теперь, в отличие от YuE у нас первая модель для генерации полного трека на латентной диффузии — DiffRhythm. Можно генерить треки длительностью до 4 минут 45 секунд с вокалом и аккомпанементом значительно быстрее всяких авторегрессионок, очевидно) Модель основана на двух последовательно обученных компонентах: VAE и DiT (рис. 1).

VAE основан на Stable Audio 2 и отличается полностью сверточной архитектурой, чтобы обрабатывать аудио произвольной длины. Учится на реконструкцию качественных треков и для лучшей устойчивости делают аугументацию имитирующую MP3-сжатие. Входные данные случайно сжимаются с переменным битрейтом, а на выходе мы также хотим качественное аудио. Также накинули 2 лосса: multi-resolution STFT и adversarial, дискриминатор сделали в 4 раза больше, чем в Stable Audio, чтобы моделька видела больше деталей и реконструкция была лучше.

DiT в DiffRhythm отвечает за генерацию латентных представлений и адаптирован для работы с длинными музыкальными последовательностями. Принимает 3 кондишна:
*️⃣ Стиль. Короткий аудиофрагмент обрабатывается через LSTM, где финальное скрытое состояние используется как глобальная информация о стиле.
*️⃣ Временной шаг. Embedding текущего шага диффузии суммируется со стилевым признаком, формируя глобальное условие.
*️⃣ Текст песни. Преобразуется в фонемы через grapheme-to-phoneme (G2P) конверсию, затем встраивается в непрерывные эмбеддинги через слой embedding. Эти признаки конкатенируются с зашумлённым латентным представлением и подаются в DiT.

DiT состоит из 16 слоёв декодера LLaMA с 2048-мерным скрытым размером и 32 головами внимания (64 измерения на голову), что составляет 1.1 миллиарда параметров. Для оптимизации используются FlashAttention2, дабы ускорить вычисления внимания для длинных последовательностях и gradient checkpointing, дабы снизить потребление памяти при обучении. Также применяется 20% dropout к стилю и тексту для поддержки classifier-free guidance (CFG) с масштабом 4 на инференсе. Учится это все дело с conditional flow matching, где моделька учится преобразовывать шум в данные через ODE. Музыка генерится за 32 шага с Euler ODE солвером и на протяжении всего трека музыка остается цельной, то есть мы получаем не набор случайных звуков))

Но, пожалуй, самое главное в этой работе — это алаймент текста и латентных представлений. Вокальные сегменты часто прерываются длительными инструментальными частями, что создаёт разрывы в временной последовательности. Также одни и те же слова могут звучать по-разному из-за различного аккомпанемента, что усложняет выравнивание. Авторы сказали, что всякий кросс-аттеншн или прямая конкатенация фичей не позволяют генерить разборчивые песни. Поэтому авторы предлагают выравнивание на уровне предложений, требующее только аннотаций начала предложений t_i_start (рис. 2) и делают его так:
*️⃣ Преобразуют текст в последовательность фонем через G2P преобразование
*️⃣ Инициализуют последовательность для алаймента P_i длиной L_max (4м45с), которая полностью заполнена падингами
*️⃣ Размещение фонем p_i в P_i на позициях, соответствующих временным меткам (𝑓_𝑖_start=[𝑡_𝑖_start * 𝐹_𝑠], где 𝐹_𝑠=21.5Гц)

Такой алаймент уменьшает потребность в детальных аннотациях, расходы на подготовку датасета и разборчивость вокала становится лучше. Бьютифул.

А теперь мои мысли: делать ллама подобные сетки с кучей аудио токенов, каким то ризонингом на лирику здорово, но можно делать как DiffRhythm. Авторегрессия, к слову, хорошая тем, что с ней можно учить все, этот подход универсален. Foundation моделей на диффузии я пока не видел. Ну и наверное авторегрессия хорошая для бизнеса, который может дать деняк, взять авторегрессию и поскейлить модельки, чтобы решить большинство возникающих задач. Что думаете?

#music #papers
5.03.2025, 15:58
t.me/den4ikresearch/87
DE
Den4ik Research
949 подписчиков
Репост
1
5.03.2025, 15:58
t.me/den4ikresearch/88
DE
Den4ik Research
949 подписчиков
11
8
466
Анекдот дня
27.02.2025, 16:12
t.me/den4ikresearch/86
DE
Den4ik Research
949 подписчиков
2
Анекдот дня
27.02.2025, 16:12
t.me/den4ikresearch/84
DE
Den4ik Research
949 подписчиков
Репост
34
34
439
Яндекс представил инновационный метод дообучения нейросетей LoRA

Yandex B2B Tech представил клиентам инновационный метод дообучения нейросетей LoRA (Low-Rank Adaptation). Который позволяет бизнесу самостоятельно и быстро адаптировать искусственный интеллект под свои специфические задачи. При этом стоимость использования дообученных моделей останется на уровне базовых версий.

Технология уже доступна на платформе AI Studio и работает с нейросетью YandexGPT и опенсорсной моделью LLaMA. В ближайшее время компания планирует расширить список поддерживаемых моделей, включив Qwen и DeepSeek, которые можно будет запускать на выделенных мощностях по запросу. Это позволит компаниям использовать несколько дообученных нейросетей одновременно, комбинируя их для различных сценариев.

https://mltimes.ai/yandeks-predstavil-innovaczionnyj-metod-doobucheniya-nejrosetej-lora/
27.02.2025, 16:12
t.me/den4ikresearch/85
DE
Den4ik Research
949 подписчиков
Репост
28
17
459
Подборка каналов

Ребята предложили залететь в подборку каналов, я согласился, потому что ребята — топ! Так что про всех понемногу:

Захар — человеку 18 лет, а ведет один из немногих каналов по аудио и делает уже свой стартап
Антон — руководитель OCR команды в яндексе и делает прикольные посты про то как быть руководителем (мне сейчас актуально)
Дэнчик — легенда в 15 лет статья на А* делает офигенные модельки на аудио
Андрей — уважаемый человек, прошли одну школу жизни МФТИ + Сколтех. Мне нравятся его лайфхаки
Никиты — прикольный посты про систем дизайну и его путь в ML
Коля — постит полезное, но в основном мемы (иногда и отдохнуть хочется).
Дима — офигенно пишет про ML, есть подборка с материалами, а также пишет много про основы ML и системный дизайн, что я считаю важным знать, но самому уже не интересно про это писать :(
Александр — придумал интересный для меня формат обзоров на посты других людей), что уже за гранью моего понимания, но думаю мега эффективным людям будет полезно
Сергей Николенко — уважаемый человек, поднимал ML, еще когда я был ребёнком. Тут просто человеку респект.
20.02.2025, 19:23
t.me/den4ikresearch/83
DE
Den4ik Research
949 подписчиков
39
8
397
Мы построим openAI дома


openAI дома:
14.02.2025, 17:23
t.me/den4ikresearch/82
DE
Den4ik Research
949 подписчиков
6
1
407
Онлайн на колинге никакущий.


Решил провести параллельную сессию здесь)
28.01.2025, 13:12
t.me/den4ikresearch/79
DE
Den4ik Research
949 подписчиков
Репост
12
16
382
Ого, нормальный опенсурс добрался до домена музыки! Авторегрессионка генерирует вокал и аккомпанемент. Ждите обзор, это весьма значимое событие!

https://huggingface.co/m-a-p/YuE-s1-7B-anneal-zh-cot
28.01.2025, 11:56
t.me/den4ikresearch/78
Результаты поиска ограничены до 100 публикаций.
Некоторые возможности доступны только премиум пользователям.
Необходимо оплатить подписку, чтобы пользоваться этим функционалом.
Фильтр
Тип публикаций
Хронология похожих публикаций:
Сначала новые
Похожие публикации не найдены
Сообщения
Найти похожие аватары
Каналы 0
Высокий
Название
Подписчики
По вашему запросу ничего не подошло