Your trial period has ended!
For full access to functionality, please pay for a premium subscription
Channel age
Created
Language
Russian
2.03%
ER (week)
6.03%
ERR (week)

HuggingFace: https://huggingface.co/Den4ikAI

GitHub: https://github.com/Den4ikAI

Донат: https://pay.cloudtips.ru/p/b9d86686

Личка: https://t.me/bceloss

Messages Statistics
Reposts and citations
Publication networks
Satellites
Contacts
History
Top categories
Main categories of messages will appear here.
Top mentions
The most frequent mentions of people, organizations and places appear here.
Found 19 results
DE
Den4ik Research
949 subscribers
17
9
401
Запускаю наш с Захаром рисерч по кодекам для ттс. Также первые звуки модели:
04/25/2025, 07:43
t.me/den4ikresearch/98
DE
Den4ik Research
949 subscribers
82
19
813
БВИ по матану в кармане
04/11/2025, 15:56
t.me/den4ikresearch/97
DE
Den4ik Research
949 subscribers
8
1
589
04/04/2025, 19:23
t.me/den4ikresearch/96
DE
Den4ik Research
949 subscribers
15
2
498
Дайте нам 8 H100 на трейн своего кодека))
04/03/2025, 11:34
t.me/den4ikresearch/95
DE
Den4ik Research
949 subscribers
15
5
652
Вот так бывает.... Сидишь с другом ночами, пишете код, а потом оказывается, что в чекпоинте нет дискриминатора
04/03/2025, 11:25
t.me/den4ikresearch/94
DE
Den4ik Research
949 subscribers
15
470
И да, я в мск
03/30/2025, 03:24
t.me/den4ikresearch/93
DE
Den4ik Research
949 subscribers
3
505
Наука не дремлет


И мы c @vf_science тоже
03/30/2025, 03:21
t.me/den4ikresearch/92
DE
Den4ik Research
949 subscribers
18
2
472
03/30/2025, 03:21
t.me/den4ikresearch/91
DE
Den4ik Research
949 subscribers
Repost
11
6
209
DiffRhythm: Blazingly Fast and Embarrassingly Simple End-to-End Full Length Song Generation with Latent Diffusion
[paper] | [code] | [hf_demo]

Опенсурс для генерации музыки развивается 👍

Теперь, в отличие от YuE у нас первая модель для генерации полного трека на латентной диффузии — DiffRhythm. Можно генерить треки длительностью до 4 минут 45 секунд с вокалом и аккомпанементом значительно быстрее всяких авторегрессионок, очевидно) Модель основана на двух последовательно обученных компонентах: VAE и DiT (рис. 1).

VAE основан на Stable Audio 2 и отличается полностью сверточной архитектурой, чтобы обрабатывать аудио произвольной длины. Учится на реконструкцию качественных треков и для лучшей устойчивости делают аугументацию имитирующую MP3-сжатие. Входные данные случайно сжимаются с переменным битрейтом, а на выходе мы также хотим качественное аудио. Также накинули 2 лосса: multi-resolution STFT и adversarial, дискриминатор сделали в 4 раза больше, чем в Stable Audio, чтобы моделька видела больше деталей и реконструкция была лучше.

DiT в DiffRhythm отвечает за генерацию латентных представлений и адаптирован для работы с длинными музыкальными последовательностями. Принимает 3 кондишна:
*️⃣ Стиль. Короткий аудиофрагмент обрабатывается через LSTM, где финальное скрытое состояние используется как глобальная информация о стиле.
*️⃣ Временной шаг. Embedding текущего шага диффузии суммируется со стилевым признаком, формируя глобальное условие.
*️⃣ Текст песни. Преобразуется в фонемы через grapheme-to-phoneme (G2P) конверсию, затем встраивается в непрерывные эмбеддинги через слой embedding. Эти признаки конкатенируются с зашумлённым латентным представлением и подаются в DiT.

DiT состоит из 16 слоёв декодера LLaMA с 2048-мерным скрытым размером и 32 головами внимания (64 измерения на голову), что составляет 1.1 миллиарда параметров. Для оптимизации используются FlashAttention2, дабы ускорить вычисления внимания для длинных последовательностях и gradient checkpointing, дабы снизить потребление памяти при обучении. Также применяется 20% dropout к стилю и тексту для поддержки classifier-free guidance (CFG) с масштабом 4 на инференсе. Учится это все дело с conditional flow matching, где моделька учится преобразовывать шум в данные через ODE. Музыка генерится за 32 шага с Euler ODE солвером и на протяжении всего трека музыка остается цельной, то есть мы получаем не набор случайных звуков))

Но, пожалуй, самое главное в этой работе — это алаймент текста и латентных представлений. Вокальные сегменты часто прерываются длительными инструментальными частями, что создаёт разрывы в временной последовательности. Также одни и те же слова могут звучать по-разному из-за различного аккомпанемента, что усложняет выравнивание. Авторы сказали, что всякий кросс-аттеншн или прямая конкатенация фичей не позволяют генерить разборчивые песни. Поэтому авторы предлагают выравнивание на уровне предложений, требующее только аннотаций начала предложений t_i_start (рис. 2) и делают его так:
*️⃣ Преобразуют текст в последовательность фонем через G2P преобразование
*️⃣ Инициализуют последовательность для алаймента P_i длиной L_max (4м45с), которая полностью заполнена падингами
*️⃣ Размещение фонем p_i в P_i на позициях, соответствующих временным меткам (𝑓_𝑖_start=[𝑡_𝑖_start * 𝐹_𝑠], где 𝐹_𝑠=21.5Гц)

Такой алаймент уменьшает потребность в детальных аннотациях, расходы на подготовку датасета и разборчивость вокала становится лучше. Бьютифул.

А теперь мои мысли: делать ллама подобные сетки с кучей аудио токенов, каким то ризонингом на лирику здорово, но можно делать как DiffRhythm. Авторегрессия, к слову, хорошая тем, что с ней можно учить все, этот подход универсален. Foundation моделей на диффузии я пока не видел (upd: видел). Ну и наверное авторегрессия хорошая для бизнеса, который может дать деняк, взять авторегрессию и поскейлить модельки, чтобы решить большинство возникающих задач. Что думаете?

#music #papers
03/05/2025, 16:01
t.me/den4ikresearch/89
DE
Den4ik Research
949 subscribers
Repost
11
726
03/05/2025, 16:01
t.me/den4ikresearch/90
DE
Den4ik Research
949 subscribers
Repost
1
DiffRhythm: Blazingly Fast and Embarrassingly Simple End-to-End Full Length Song Generation with Latent Diffusion
[paper] | [code] | [hf_demo]

Опенсурс для генерации музыки развивается 👍

Теперь, в отличие от YuE у нас первая модель для генерации полного трека на латентной диффузии — DiffRhythm. Можно генерить треки длительностью до 4 минут 45 секунд с вокалом и аккомпанементом значительно быстрее всяких авторегрессионок, очевидно) Модель основана на двух последовательно обученных компонентах: VAE и DiT (рис. 1).

VAE основан на Stable Audio 2 и отличается полностью сверточной архитектурой, чтобы обрабатывать аудио произвольной длины. Учится на реконструкцию качественных треков и для лучшей устойчивости делают аугументацию имитирующую MP3-сжатие. Входные данные случайно сжимаются с переменным битрейтом, а на выходе мы также хотим качественное аудио. Также накинули 2 лосса: multi-resolution STFT и adversarial, дискриминатор сделали в 4 раза больше, чем в Stable Audio, чтобы моделька видела больше деталей и реконструкция была лучше.

DiT в DiffRhythm отвечает за генерацию латентных представлений и адаптирован для работы с длинными музыкальными последовательностями. Принимает 3 кондишна:
*️⃣ Стиль. Короткий аудиофрагмент обрабатывается через LSTM, где финальное скрытое состояние используется как глобальная информация о стиле.
*️⃣ Временной шаг. Embedding текущего шага диффузии суммируется со стилевым признаком, формируя глобальное условие.
*️⃣ Текст песни. Преобразуется в фонемы через grapheme-to-phoneme (G2P) конверсию, затем встраивается в непрерывные эмбеддинги через слой embedding. Эти признаки конкатенируются с зашумлённым латентным представлением и подаются в DiT.

DiT состоит из 16 слоёв декодера LLaMA с 2048-мерным скрытым размером и 32 головами внимания (64 измерения на голову), что составляет 1.1 миллиарда параметров. Для оптимизации используются FlashAttention2, дабы ускорить вычисления внимания для длинных последовательностях и gradient checkpointing, дабы снизить потребление памяти при обучении. Также применяется 20% dropout к стилю и тексту для поддержки classifier-free guidance (CFG) с масштабом 4 на инференсе. Учится это все дело с conditional flow matching, где моделька учится преобразовывать шум в данные через ODE. Музыка генерится за 32 шага с Euler ODE солвером и на протяжении всего трека музыка остается цельной, то есть мы получаем не набор случайных звуков))

Но, пожалуй, самое главное в этой работе — это алаймент текста и латентных представлений. Вокальные сегменты часто прерываются длительными инструментальными частями, что создаёт разрывы в временной последовательности. Также одни и те же слова могут звучать по-разному из-за различного аккомпанемента, что усложняет выравнивание. Авторы сказали, что всякий кросс-аттеншн или прямая конкатенация фичей не позволяют генерить разборчивые песни. Поэтому авторы предлагают выравнивание на уровне предложений, требующее только аннотаций начала предложений t_i_start (рис. 2) и делают его так:
*️⃣ Преобразуют текст в последовательность фонем через G2P преобразование
*️⃣ Инициализуют последовательность для алаймента P_i длиной L_max (4м45с), которая полностью заполнена падингами
*️⃣ Размещение фонем p_i в P_i на позициях, соответствующих временным меткам (𝑓_𝑖_start=[𝑡_𝑖_start * 𝐹_𝑠], где 𝐹_𝑠=21.5Гц)

Такой алаймент уменьшает потребность в детальных аннотациях, расходы на подготовку датасета и разборчивость вокала становится лучше. Бьютифул.

А теперь мои мысли: делать ллама подобные сетки с кучей аудио токенов, каким то ризонингом на лирику здорово, но можно делать как DiffRhythm. Авторегрессия, к слову, хорошая тем, что с ней можно учить все, этот подход универсален. Foundation моделей на диффузии я пока не видел. Ну и наверное авторегрессия хорошая для бизнеса, который может дать деняк, взять авторегрессию и поскейлить модельки, чтобы решить большинство возникающих задач. Что думаете?

#music #papers
03/05/2025, 15:58
t.me/den4ikresearch/87
DE
Den4ik Research
949 subscribers
Repost
1
03/05/2025, 15:58
t.me/den4ikresearch/88
DE
Den4ik Research
949 subscribers
11
8
466
Анекдот дня
02/27/2025, 16:12
t.me/den4ikresearch/86
DE
Den4ik Research
949 subscribers
2
Анекдот дня
02/27/2025, 16:12
t.me/den4ikresearch/84
DE
Den4ik Research
949 subscribers
Repost
34
34
439
Яндекс представил инновационный метод дообучения нейросетей LoRA

Yandex B2B Tech представил клиентам инновационный метод дообучения нейросетей LoRA (Low-Rank Adaptation). Который позволяет бизнесу самостоятельно и быстро адаптировать искусственный интеллект под свои специфические задачи. При этом стоимость использования дообученных моделей останется на уровне базовых версий.

Технология уже доступна на платформе AI Studio и работает с нейросетью YandexGPT и опенсорсной моделью LLaMA. В ближайшее время компания планирует расширить список поддерживаемых моделей, включив Qwen и DeepSeek, которые можно будет запускать на выделенных мощностях по запросу. Это позволит компаниям использовать несколько дообученных нейросетей одновременно, комбинируя их для различных сценариев.

https://mltimes.ai/yandeks-predstavil-innovaczionnyj-metod-doobucheniya-nejrosetej-lora/
02/27/2025, 16:12
t.me/den4ikresearch/85
DE
Den4ik Research
949 subscribers
Repost
28
17
459
Подборка каналов

Ребята предложили залететь в подборку каналов, я согласился, потому что ребята — топ! Так что про всех понемногу:

Захар — человеку 18 лет, а ведет один из немногих каналов по аудио и делает уже свой стартап
Антон — руководитель OCR команды в яндексе и делает прикольные посты про то как быть руководителем (мне сейчас актуально)
Дэнчик — легенда в 15 лет статья на А* делает офигенные модельки на аудио
Андрей — уважаемый человек, прошли одну школу жизни МФТИ + Сколтех. Мне нравятся его лайфхаки
Никиты — прикольный посты про систем дизайну и его путь в ML
Коля — постит полезное, но в основном мемы (иногда и отдохнуть хочется).
Дима — офигенно пишет про ML, есть подборка с материалами, а также пишет много про основы ML и системный дизайн, что я считаю важным знать, но самому уже не интересно про это писать :(
Александр — придумал интересный для меня формат обзоров на посты других людей), что уже за гранью моего понимания, но думаю мега эффективным людям будет полезно
Сергей Николенко — уважаемый человек, поднимал ML, еще когда я был ребёнком. Тут просто человеку респект.
02/20/2025, 19:23
t.me/den4ikresearch/83
DE
Den4ik Research
949 subscribers
39
8
397
Мы построим openAI дома


openAI дома:
02/14/2025, 17:23
t.me/den4ikresearch/82
DE
Den4ik Research
949 subscribers
6
1
407
Онлайн на колинге никакущий.


Решил провести параллельную сессию здесь)
01/28/2025, 13:12
t.me/den4ikresearch/79
DE
Den4ik Research
949 subscribers
Repost
12
16
382
Ого, нормальный опенсурс добрался до домена музыки! Авторегрессионка генерирует вокал и аккомпанемент. Ждите обзор, это весьма значимое событие!

https://huggingface.co/m-a-p/YuE-s1-7B-anneal-zh-cot
01/28/2025, 11:56
t.me/den4ikresearch/78
Search results are limited to 100 messages.
Some features are available to premium users only.
You need to buy subscription to use them.
Filter
Message type
Similar message chronology:
Newest first
Similar messages not found
Messages
Find similar avatars
Channels 0
High
Title
Subscribers
No results match your search criteria