Your trial period has ended!
For full access to functionality, please pay for a premium subscription
Channel age
Created
Language
Russian
-
ER (week)
-
ERR (week)

Генерацией музыки и всем, что связано с аудио ML я занимаюсь, а всем остальным ML интересуюсь) Делюсь знаниями, мыслями, событиями по своей карье, делаю анонсы своих онлайн/офлайн мероприятий. Автор: @varfolomeefff

Messages Statistics
Reposts and citations
Publication networks
Satellites
Contacts
History
Top categories
Main categories of messages will appear here.
Top mentions
The most frequent mentions of people, organizations and places appear here.
Found 33 results
VF
VF | Science
707 subscribers
233
04/15/2025, 12:51
t.me/vf_science/410
VF
VF | Science
707 subscribers
231
👀 Предложение: давайте подготовим доклады и поделимся опытом на датафесте

Пишите мне, если захотите: @varfolomeefff

tldr: если вы начинаете карьеру/хотите больше возможностей/обратную связь/развитие репутации, попробуйте выступить, мы вам поможем сделать хороший доклад :)

Полагаю, вы можете весьма скептично относиться к датафесту. Однако почти год назад я впервые выступил на камеру перед большой аудиторией. Перед этим я еще выступил без записи, и слава богу ее нет)) Короче ODS дал мне фундамент, на котором лежит почти вся моя карьера на данный момент.

Я не то что бы горел желанием выступать, но мне сказали та чо ты, попробуй, это будет так здорово, полезный опыт, все дела... Это и правда помогло мне. Я представил, что может дать грациозное выступление и толпу желающих пообщаться/предложить сотрудничать/похвалить. До этого я был "никем" (без опыта работы, без связей, без возможностей). А теперь у меня есть все.

Выступление подарило мне команду, с которой я сейчас делаю стартап, подарило репутацию, благодаря которой меня взяли обучать большущие модельки для генерации музыки, подарило окружение с которым я то и дело каждые выходные встречаюсь по всей Москве.

Выступления это и есть наша жизнь. Мы выступаем друг перед другом каждый день по несколько раз, в зависимости от того насколько хорошо мы выступаем зависит наше положение в обществе.

Можно очень хорошо делать свою работу, но если не рассказывать об этом и не уметь этого делать, вероятно, когда будет стоять вопрос о награде за работу о вас не вспомнят. Поэтому выступления важная часть жизни любого специалиста/эксперта, так мы закрепляем наши достижения в обществе, а не только в рамках своей команды.

Вот такой прогрев на выступление, что скажете? :)
04/15/2025, 12:51
t.me/vf_science/409
VF
VF | Science
707 subscribers
269
04/15/2025, 12:16
t.me/vf_science/408
VF
VF | Science
707 subscribers
573
Fun fact: знаете как прошло мое 1 собеседование по мл, после которого меня были рады принять в коллектив... Я настолько хотел всесторонне подготовиться (повторял инфу за неделю), что сделал целую презу с ответами для возможных вопросов и даже больше. Я очень хотел на работу именно к тем ребятам. На собесе было 4 человека, на меня посмотрели, похлопали глазками и наверное капец удивились, что это за фигня творится?) Попросили без нее обойтись и отвечать с глазу на глаз) Но все же пока делал презу я хорошо понял темы, так что неплохо для своего уровня ответил, ну и переживал местами, несмотря на весь предыдущий опыт выступлений на сотни человек. Не мог посчитать размерности для трансформера :) Но в то же время мог рассказать много инсайдов про каждую дл архитектуру, например, что самые репрезентативные слои лежат в середине трансформера (хотя тут можно поспорить, но это подтверждали многократно), помните это, например когда будете добавлять кондишны в ваших модельках.

#story
04/10/2025, 21:52
t.me/vf_science/407
VF
VF | Science
707 subscribers
340
Рекомендую канал Ани Пиуновой! :)

Недавно заметил интересный канал от Ани. Он недавно появился и самого начала радует весьма качественным контентом, желаю быстрого роста.

Аня работает на позиции Applied Scientist в Amazon и окончила магистратуру в одном из ведущих вузов Германии — RWTH Aachen. А также занималась голосовым ассистентом Алекса, своего рода американская Алиса.

Ань, жду посты связанные с аудио доменом. Может быть можно, если осторожно) 😁

Подробнее о канале и авторе тут:

https://t.me/applied_scientist_blog/
3
04/09/2025, 17:05
t.me/vf_science/406
VF
VF | Science
707 subscribers
Repost
503
Вот так бывает.... Сидишь с другом ночами, пишете код, а потом оказывается, что в чекпоинте нет дискриминатора
04/03/2025, 11:27
t.me/vf_science/405
VF
VF | Science
707 subscribers
725
03/27/2025, 21:01
t.me/vf_science/397
VF
VF | Science
707 subscribers
827
Кстати, подробнее изучил канал, интересное чтиво, но подписчиков как-то маловато) Хочу поддержать автора, советую тоже обратить внимание на посты. Подойдет начинающим и экспертам.

Там много обзоров с рефернсами и разным уровнем сложности. Например [1], [2], [3].

Но преимущественно посты про действительно тонкие темы, типа DL для химии, физики, сейсмологии, диффуров. В общем всё что не является LLM-мейнстромом, но возможно станет широко распространено в будущем.
03/15/2025, 20:43
t.me/vf_science/396
VF
VF | Science
707 subscribers
303
Наконец то я пришел сюда. Встречай, круглый тензор.

🔣 IT Purple Conf в сколтехе
03/15/2025, 09:46
t.me/vf_science/395
VF
VF | Science
707 subscribers
Repost
286
Про учебники (very hard)
The Principles of Deep Learning Theory (2022, 385 цит., 449 стр.)

Последнее время я писал про простые учебники для начинающих и очень ориентированные на практику. Возможно у кого то возник вопрос, а есть ли что-то невероятно сложное? Например, про современную математическую теорию DL, за 40-60 лет с доказательства универсальной теоремы аппроксимации вероятно уже что-то ещё придумали?

Вот такой учебник. Внутри Neural Tangent Kernel, основы теории информации для DL, теоремы про residul block (соединения вида x = x + f(x)), одна из теорий инициализации весов, нейронные сети с точки зрения термодинамики и ещё много очень странных вешей.

Рекомендую читать, только если вам этот мир абсолютно понятен и вы ищете покоя, умиротворения, гармонии от слияния с бесконечно вечным.

#dl #textbook #theory
03/15/2025, 09:16
t.me/vf_science/394
VF
VF | Science
707 subscribers
Repost
323
Друзья, сегодня мы запускаем Fluently на Product Hunt 🚀

Напомню, что мы делаем AI тютора, который помогает non-native спецам и фаундерам (вроде меня) улучшать разговорный английский язык, чтобы не ‘экать’ и не тупить во время важных коллов на инглише, подробнее на видео.

Сегодня сложный день для запуска, поэтому буду очень признателен, если поддержите (апвоутом и комментом) тут

👉🏻 https://www.producthunt.com/posts/fluently-ai-english-coach

В благодарность за поддержку, всем кто оставит коммент cегодня (11 марта) - я скину свой гайд по фандрейзингу и заполнению заявки в топ акселератор США - Y Combinator. В гайде я поделился собственным опытом прохождения в YC и привлечения денег на pre-seed / seed стадиях.

Как поставите апвоут - заполните анкетку, и я пришлю док.

Если у вас вдруг есть свой канал, то буду супер благодарен за репост 🙏🏻

P.S. Если у вас нет аккаунта на PH, то не нужно его заводить для этого случая. Вы не только не поможете, а даже навредите.
03/12/2025, 09:45
t.me/vf_science/393
VF
VF | Science
707 subscribers
442
Делаем ресерч в прекрасный пятничный вечер
03/07/2025, 20:13
t.me/vf_science/392
VF
VF | Science
707 subscribers
244
👀 CLaMP 3: Universal Music Information Retrieval Across Unaligned Modalities and Unseen Languages
[paper] | [code] | [hf_demo]

Подгончик для яндекс музыки :) Интересно, как там устроен MIR (Music Information Retrieval).

Здесь мультимодальный и мультиязычный (100 языков) поиск музыки. Все как обычно, 3 энкодера и контрастив лосс. Для текста XLM-R-base (ну и динозавр), для нот M3, для аудио MERT. Стоит выделить разве что стратегию обучения вдохновленную ImageBind:
*️⃣ Текстовый энкодер выравнивается с одним музыкальным энкодером (например, символическим)
*️⃣ Текстовый энкодер замораживается, и выравнивается второй музыкальный энкодер (например, аудио)
*️⃣ Текстовый энкодер размораживается для уточнения выравнивания со вторым энкодером
*️⃣ Текстовый энкодер снова замораживается для повторного выравнивания с первым энкодером

Однако для меня в таких штуках важнее датасет. Сделали датасет M4-RAG с 2.31 миллиона пар музыка-текст. Собрали через RAG на основе названий произведений и имен исполнителей выполнялся поиск в Google (топ-10 результатов), затем LLM (Qwen2.5-72B) генерировала аннотации: жанры, теги, фоновую информацию, описания. Состоит из 0.58 млн пар ABC-текст, 0.17 млн пар MIDI-текст, 1.56 млн пар аудио-текст. Охватывает 27 языков и 194 страны. Метаданные включают короткие теги и длинные описания, переведенные на случайные языки для увеличения многоязычности.

Ребята еще свой бенчмарк WikiMT-X выпустили из 1000 триплетов (ноты, аудио, текст). По сути просто улучшили WikiMT с помощью LLM (llama-3.1) и ручной проверки соответствия аудио. Ну, и это первый датасет, объединяющий три модальности с разнообразными семантическими аспектами.

А еще я чет не заметил моего любимого VQ-VAE, хотя ладно, он использовался при обучении их аудио энкодера.

#music #papers #datasets
03/07/2025, 18:47
t.me/vf_science/391
VF
VF | Science
707 subscribers
6.3 k
03/05/2025, 15:54
t.me/vf_science/389
VF
VF | Science
707 subscribers
6.3 k
👀 DiffRhythm: Blazingly Fast and Embarrassingly Simple End-to-End Full Length Song Generation with Latent Diffusion
[paper] | [code] | [hf_demo]

Опенсурс для генерации музыки развивается 👍

Теперь, в отличие от YuE у нас первая модель для генерации полного трека на латентной диффузии — DiffRhythm. Можно генерить треки длительностью до 4 минут 45 секунд с вокалом и аккомпанементом значительно быстрее всяких авторегрессионок, очевидно) Также можно указать тайминги для лирики, крутая фича. Модель основана на двух последовательно обученных компонентах: VAE и DiT (рис. 1).

VAE основан на Stable Audio 2 и отличается полностью сверточной архитектурой, чтобы обрабатывать аудио произвольной длины. Учится на реконструкцию качественных треков и для лучшей устойчивости делают аугментацию имитирующую MP3-сжатие. Входные данные случайно сжимаются с переменным битрейтом, а на выходе мы также хотим качественное аудио. Также накинули 2 лосса: multi-resolution STFT и adversarial, дискриминатор сделали в 4 раза больше, чем в Stable Audio, чтобы моделька видела больше деталей и реконструкция была лучше.

DiT в DiffRhythm отвечает за генерацию латентных представлений и адаптирован для работы с длинными музыкальными последовательностями. Принимает 3 кондишна:
*️⃣ Стиль. Короткий аудиофрагмент обрабатывается через LSTM, где финальное скрытое состояние используется как глобальная информация о стиле.
*️⃣ Временной шаг. Embedding текущего шага диффузии суммируется со стилевым признаком, формируя глобальное условие.
*️⃣ Текст песни. Преобразуется в фонемы через grapheme-to-phoneme (G2P) конверсию, затем встраивается в непрерывные эмбеддинги через слой embedding. Эти признаки конкатенируются с зашумлённым латентным представлением и подаются в DiT.

DiT состоит из 16 слоёв декодера LLaMA с 2048-мерным скрытым размером и 32 головами внимания (64 измерения на голову), что составляет 1.1 миллиарда параметров. Для оптимизации используются FlashAttention2, дабы ускорить вычисления внимания для длинных последовательностях и gradient checkpointing, дабы снизить потребление памяти при обучении. Также применяется 20% dropout к стилю и тексту для поддержки classifier-free guidance (CFG) с масштабом 4 на инференсе. Учится это все дело с conditional flow matching, где моделька учится преобразовывать шум в данные через ODE. Музыка генерится за 32 шага с Euler ODE солвером и на протяжении всего трека музыка остается цельной, то есть мы получаем не набор случайных звуков))

Но, пожалуй, самое главное в этой работе — это алаймент текста и латентных представлений. Вокальные сегменты часто прерываются длительными инструментальными частями, что создаёт разрывы в временной последовательности. Также одни и те же слова могут звучать по-разному из-за различного аккомпанемента, что усложняет выравнивание. Авторы сказали, что всякий кросс-аттеншн или прямая конкатенация фичей не позволяют генерить разборчивые песни. Поэтому авторы предлагают выравнивание на уровне предложений, требующее только аннотаций начала предложений t_i_start (рис. 2) и делают его так:
*️⃣ Преобразуют текст в последовательность фонем через G2P преобразование
*️⃣ Инициализуют последовательность для алаймента P_i длиной L_max (4м45с), которая полностью заполнена падингами
*️⃣ Размещение фонем p_i в P_i на позициях, соответствующих временным меткам (𝑓_𝑖_start=[𝑡_𝑖_start * 𝐹_𝑠], где 𝐹_𝑠=21.5Гц)

Такой алаймент уменьшает потребность в детальных аннотациях, расходы на подготовку датасета и разборчивость вокала становится лучше. Бьютифул.

А теперь мои мысли: делать ллама подобные сетки с кучей аудио токенов, каким то ризонингом на лирику здорово, но можно делать как DiffRhythm. Авторегрессия, к слову, хороша тем, что с ней можно учить все, этот подход универсален. Foundation моделей на диффузии я пока не видел (upd: видел). Ну и наверное авторегрессия хорошая для бизнеса, который может дать деняк, взять авторегрессию и поскейлить модельки, чтобы решить большинство возникающих задач. Что думаете?

#music #papers
03/05/2025, 15:54
t.me/vf_science/390
VF
VF | Science
707 subscribers
Repost
349
03/04/2025, 14:42
t.me/vf_science/386
VF
VF | Science
707 subscribers
Repost
349
А сейчас будет прямо особенный анонс. Я конечно вряд ли попаду туда, но ооочень постараюсь.

Eastern European Machine Learning Summer School | 21-26 July 2025, Sarajevo, Bosnia and Herzegovina

Летная ML школа от крутейших ребят из гугла, кэмбриджа, оксфорда и тд... У некоторых ребят научруки с хиршем >230. Я посмотрел научруков каждого и научруков их научруков)) Ну вот так интересно было.

Дедлайн подачи заявки - 31 марта включительно

Чтобы туда попасть нужно, конечно, написать интересное мотивационное письмо, а также расписать свои ресерч интересы. Затем самое главное, нужно определить ваши навыки ресерча. Можно выбрать 3 пути:
*️⃣ Написать 3 разбора статьей с топовых конференций
*️⃣ Поделиться опытом своих проектов/исследований, написать мини-статью на 2 страницы
*️⃣Поделиться опытом решения сорев на kaggle
*️⃣Воспроизвести результаты статей с топовых конференций

Не знаю, какая там конкуренция и насколько отличаются студенты за рубежом, но податься попробую. Получается (надеюсь) меня оценят чуваки из гугла и тд, это полезно.
03/04/2025, 14:42
t.me/vf_science/388
VF
VF | Science
707 subscribers
Repost
349
03/04/2025, 14:42
t.me/vf_science/387
VF
VF | Science
707 subscribers
338
кажется, я нашел себе научрука
03/04/2025, 14:06
t.me/vf_science/382
VF
VF | Science
707 subscribers
347
Ситуация у меня следующая: до дедлайна подачи статьи про векторное квантование на NIPS осталось два месяца. Эксперименты ещё не начаты, есть четыре разные постановки задачи. Статья, конечно, пишется сильно заранее, до того как появятся результаты экспериментов. Сейчас такой период, когда я круглые сутки работаю над статьей. Надо ускориться с её оформлением и кодом для экспериментов, а потом получить доступ к вычислительным мощностям — возможности для этого есть. В статье я уверен. У меня даже есть один конкурент с препринтом на arXiv, где описана похожая работа, но различий между нашими подходами достаточно. Они тоже будут подаваться на NIPS, это точно. Короче, моя проблематика уже не такая уникальная, но это лишь означает, что я выбрал хорошую тему и могу быть увереннее в эффективности своих идей.

Прошло шесть месяцев с того момента, как я начал активно ресерчить. Пишу статью впервые, в одиночку, не умея поначалу расставлять приоритеты, оценивать гипотезы и задавать правильные вопросы. Все эти проблемы я постепенно решил, почти полностью. Очень хочется поделиться идеей и опытом написания статьи, но это будет не раньше чем через три-четыре месяца. Было бы значительно легче, если бы исследования были моей основной работой — надо этим заняться. Мне нравится заниматься ресерчем, но также хочется активно внедрять их в бизнес и улучшать продукты. Мой исследовательский интерес возник из задачи audio2midi. Параллельно я активно обучаю новую нейросеть для @Audio2MIDIBot. Главное применение моего исследования будет именно в этом боте. Он призван решить проблему повторяющихся нот в музыке, где вокал и аккомпанемент звучат в одной тональности, монотонно или имеют совсем небольшие изменения, которые нейронной сети сложнее уловить. Например, такой жанр музыки, как фонк, часто хорошо переводится в MIDI: там есть чёткие и частые переходы, перепады громкости, смена инструментов и всё такое.
03/04/2025, 13:51
t.me/vf_science/381
VF
VF | Science
707 subscribers
559
👀 Небольшое обновление канала перед новыми постами

Проведу эксперимент. Направлю все новые посты о моем посещении конференций в отдельный канал. Там будет инфа о мероприятиях на которые планирую пойти и как онр прошли, про особенно интересные буду писать здесь. Есть хорошая возможность пересечься, если вы в Москве (в др. городах я бываю реже).
02/26/2025, 15:55
t.me/vf_science/380
VF
VF | Science
707 subscribers
Repost
573
Парни со стволами блогами

Когда я начинал свой путь в DS (и даже не знал, что можно быстро вкатиться), я буквально днями зависал в слаке ODS’а и впитывал каждый пост и комментарии оттуда. Ребята всегда находили чем поделиться: успехами, поражениями, интересным опытом, или даже необычными ситуациями. Сейчас мои 90% источников знаний также остались в мессенджерах, но в телеге. По моим постам (0, 1, 2, 3) и Интересному Что-то вы наверно 💯 догадываетесь, что я читаю достаточно большое количество ML-блогов.

Для меня в первую очередь это новые знания, опыт, который я могу перенять и даже офигенные идеи. Я уверен, что вы подписаны не только на меня одного, и также учитесь у экспертов, которые щедро делятся своими знаниями и опытом.

Самое важное по моему мнению - это возможность увидеть, насколько разнообразной и многогранной может быть буквально одна и та же работа с моделями и сеточками. У каждого свои челленджи, перспектива, свой стиль и подход к решению задач - гуглить и копировать со стаковерфлоу, просить чатгпт или вообще делегировать джунам.

И в этом разнообразии кроется огромная ценность. Читая посты от разных авторов, мы расширяем свои горизонты, знакомимся с новыми идеями и подходами, которые могут вдохновить нас на собственные исследования и проекты. Мы учимся смотреть на проблемы с разных точек зрения и находить нестандартные решения. Мы начинаем понимать, что в ML нет единственно верного пути, а есть множество возможностей и путей к успеху.

Это не просто пассивное поглощение информации. Это активный процесс обучения и роста. Мы можем задавать вопросы, участвовать в дискуссиях, делиться своими мыслями и идеями. Мы можем учиться на опыте других и применять полученные знания в своей работе и проектах. А иногда мы можем даже вдохновиться на то, чтобы самим начать вести блог и делиться своими знаниями и опытом.

Го использовать эту удивительную возможность. Специально для вас мы с ребятами собрали небольшую папочку с ML-авторами: https://t.me/addlist/f8IcgSAaYok2ODMy

Если хотите рекомендаций, то вот например:

🔵Сергей вот (ага, тот самый, который написал одну из книг из этой подборки) недавно пустил в печать еще одну свою книгу
🔵П
ост Захара про свой стартап
🔵Объяснение self-attention и multihead attention на пальцах от Димы
�Пост Антона про то, как учиться быть руководителем
🔵Никита расписал немного ML System Design Interview
🔵Пост Андрея про интерпретируемость моделей машинного обучения
🔵Денчик вон вообще статью в 16 лет написал
🔵Андрей (еще один) кстати выступал на том же DataFest’е, что и я
🔵А Николай хорошо раскидал оптимизационную задачу

#collaboration
02/20/2025, 19:01
t.me/vf_science/379
VF
VF | Science
707 subscribers
Repost
343
Вчера читал лекции про SVM да RVM, и вот видео уже выложено, да и все материалы на странице курса доступны как обычно.

Что мне всегда нравилось в околоматематических науках, в том числе и в машинном обучении, — это то, что как бы быстро ни двигался прогресс, всё равно основные идеи сохраняются, не устаревают и время от времени возникают в самых разных местах.

В этих лекциях вот рассказывал про SVM и kernel trick. Казалось бы, кому в эпоху нейросетей захочется самому придумывать ядра для нелинейной классификации и применять kernel trick — сеть же сама выучит нужное нелинейное преобразование. И действительно, может выучить, и базовые SVM сейчас редко встретишь в живой природе — но трюк отнюдь не умер! Это математическая идея, и она вовсе не об SVM, а о том, что скалярные произведения в пространствах признаков высокой размерности φ(x) эквивалентны нелинейным функциям от исходных векторов малой размерности x.

Так что когда в трансформерах понадобилось решать проблему квадратичной сложности, одним из подходов стал как раз kernel trick, только наоборот: если перейти от softmax(q⋅k)⋅v в пространство признаков, где softmax будет линейным, φ(q)⋅φ(k) (приближённо, разумеется), то можно будет переставить скобочки и матрицу квадратичной от длины входа сложности не считать. Эта идея называется сейчас linear attention, и я об этом недавно подробно писал в посте про линейное внимание и Mamba.

Это хороший пример к извечной морали любого образовательного процесса: изучать надо не рецепты, не конкретные модели и решения, а идеи, которые лежат в их основе. Модели устареют, рецепты заменятся на другие, — а идеи вечны.

https://www.youtube.com/watch?v=tHjg8mH0VSM
02/20/2025, 06:41
t.me/vf_science/378
VF
VF | Science
707 subscribers
587
02/09/2025, 17:23
t.me/vf_science/375
VF
VF | Science
707 subscribers
587
02/09/2025, 17:23
t.me/vf_science/376
VF
VF | Science
707 subscribers
587
02/09/2025, 17:23
t.me/vf_science/373
VF
VF | Science
707 subscribers
587
👀 Посетил финал конкурса предпринимателей GSEA 2025

За пару дней до мероприятия узнал от нашего замечательного PM, что наша команда Audio2MIDI зарегистрирована на конкурс. Смотрю такой, что там будет, вижу Оскар Хартман придет (долларовый миллиардер) и другие серьезные люди. Стало интересно узнать, как на таких мероприятиях дела делаются, ибо я был только на айтишных и научных сходках. Спойлер: финал мы увы не выиграли, все впереди.

Какие выводы сделал:
*️⃣На такие мероприятия люди идут с конкретными целями и знают, что и кому говорить.
*️⃣ Честно, порой я смотрел на продукты, которые развивают люди и удивлялся, что в этом можно создать потребность и найти свою аудиторию. Порой нужно быть увереннее у своих продуктах и создавать в них потребность, не только искать ее.
*️⃣Люди активно знакомятся и обмениваются опытом, каждый человек инициативный. Мне было тяжело знакомиться первым и направлять диалог, но под конец стало хорошо получаться.
*️⃣Новых контактов после таких мероприятий много, лучше сразу писать напоминалку о вашем последнем разговоре.
*️⃣Кто успел, тот и съел. Нужно не упускать возможности, в том числе возможность познакомиться с человеком за соседним столиком :) Я стеснялся, но решился познакомиться, получил весьма полезное знакомство!
*️⃣Нужно рисковать, но с умом. В том числе нужно правильно выбирать с кем сотрудничать, как сотрудничать, сколько сотрудничать. Время это деньги )) Заезженная фраза.

Выводов и новых знаний сильно больше. Было много докладов и нетворка, мероприятие длилось 13 часов! Есть запись: https://gsea.ru/

Я познакомился с основателями компаний, бизнес трекерами, инвесторами... Впечатлений много и такая смена обстановки, окружения и целей создали неопределенность в голове. Ибо я в основном инженер и будущий ученый, я так думал...
02/09/2025, 17:23
t.me/vf_science/377
VF
VF | Science
707 subscribers
587
02/09/2025, 17:23
t.me/vf_science/374
VF
VF | Science
707 subscribers
215
А вообще, знаете к чему идут посты про VQ-VAE? К полному отказу от использования VQ-VAE))) Думаю все, кто имел дело с ним понимают, что раньше либо не было альтернатив и приходилось мучиться, либо учили на патчах, либо думали, что авторергессия для генерации изображений/аудио это скам. Но с другой стороны, есть задачи кроме генерации картинок и аудио, там все чуток иначе. Скоро мы дойдем до самых интересных работ и до мего неинтересного ресерча, обсудим все это 😆
02/07/2025, 21:47
t.me/vf_science/372
VF
VF | Science
707 subscribers
224
02/07/2025, 21:42
t.me/vf_science/368
VF
VF | Science
707 subscribers
396
02/03/2025, 15:49
t.me/vf_science/367
VF
VF | Science
707 subscribers
496
Пошлите послушаем как школьники в 15 лет пишут папиры на A ранговые конфы, а именно моего хорошего друга Дениса. Мы проводим постерную сессию онлайн. Денис создал лучший расстановщик ударений для ruTTS.

https://t.me/den4ikresearch
01/28/2025, 13:22
t.me/vf_science/366
VF
VF | Science
707 subscribers
721
Ого, нормальный опенсурс добрался до домена музыки! Авторегрессионка генерирует вокал и аккомпанемент. Ждите обзор, это весьма значимое событие!

https://huggingface.co/m-a-p/YuE-s1-7B-anneal-zh-cot
01/28/2025, 11:49
t.me/vf_science/365
Search results are limited to 100 messages.
Some features are available to premium users only.
You need to buy subscription to use them.
Filter
Message type
Similar message chronology:
Newest first
Similar messages not found
Messages
Find similar avatars
Channels 0
High
Title
Subscribers
No results match your search criteria