O seu período de teste terminou!
Para acesso total à funcionalidade, pague uma subscrição premium
CG
Метаверсище и ИИще
https://t.me/cgevent
Idade do canal
Criado
Linguagem
Russo
12.82%
ER (semana)
17.13%
ERRAR (semana)

Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.

Для связи: @SergeyTsyptsyn

Mensagens Estatísticas
Repostagens e citações
Redes de publicação
Satélites
Contatos
História
Principais categorias
As principais categorias de mensagens aparecerão aqui.
Principais menções
Não foram detectadas menções significativas.
Encontrado 1 082 resultados
"Одни из нас". Второй эпизод второго сезона.

Ну как так! У них совесть есть?! Что ж такое!
24.04.2025, 15:23
t.me/cgevent/11999
Hunyuan 2.5: 3D-генераторы. Гонка продолжается. Часть 4

Диванные мысли. Гонка 3Д-генераторов сейчас в самом разгаре. Этакий 2023 года для картинок.

В отличие от картинок, где сейчас битва идет уже за конкретные детали(текст, пальцы, лица) и пост-редактирование, у 3Д-генераторов все впереди.

Ибо порождение 3Д-сетки - это не финальный, а более чем промежуточный результат, я бы даже сказал, начальный. Ведь дальше эту 3Д-модель (в отличие от картинок) рано показывать пользователю\миру, а предстоит отправить в длинный пайплайн:
Ретопология
Развертка UV
Текстурирование до годного (разрешения)
Риг
Скиннинг
Лицевой риг(отдельная тема)

Если ваши фантазии не идут дальше 3Д-принтера или расстановки болванов в метаверсике или VR, то вы почти у цели.

Но взрослые мальчики ожидают, что весь этот взрослыйпайплайн постепенно будет пристегиваться к 3Д-генераторам.

И тут я опять взвою вопросом: будут ли Deemos, Tripo, Hunyuan или Trellis изобретать свою Web-Maya или Nano-Blender внутри своих платформ, или кто-то типа Адобченко с готовым 3Д на борту прикрутит генерацию внутри имеющихся пайплайнов.

Понятно, что путь опенсорса лежит через плагины к Блендору.

Но я также подозреваю, что кто-то из больших игроков рано или поздно прикупит один из 3Д-генераторов и сделает свое решение.

Например Фрипик или Креа, у которых очень много денег сейчас.

@cgevent
24.04.2025, 14:18
t.me/cgevent/11998
24.04.2025, 14:03
t.me/cgevent/11997
24.04.2025, 14:03
t.me/cgevent/11993
Hunyuan 2.5: 3D-генераторы. Гонка продолжается. Часть 3

Если хотите посмотреть, как выглядит процесс от скетча до рига и анимации(!), то держите вот такой тред.

Там показано, как это все работает у них на сайте.

Идея прям правильная, все начинается именно с концептов, и тут представлен мета-пайплайн, близкий к студийному.

За кадром остается вопрос топологии, дальнейшей настройки рига и скининга и т.д.

@cgevent
24.04.2025, 14:03
t.me/cgevent/11991
24.04.2025, 14:03
t.me/cgevent/11994
24.04.2025, 14:03
t.me/cgevent/11992
24.04.2025, 14:03
t.me/cgevent/11995
24.04.2025, 14:03
t.me/cgevent/11996
12
25
1.7 k
Hunyuan 2.5: 3D-генераторы. Гонка продолжается. Часть 2


Нашел видео со сравнением 2.0 и 2.5: видно, что детали и грани стали резче, а мыла меньше. 2.0 справа.

Но как пишут в сети, топология по-прежнему адъ. И он также не умеет в моделинг по частям (о чем уже заявили Deemos Tech (Rodin) и Tripo 3D.

Автор пишет, что детали реально лучше, чем у Trellis и Tripo, но проклинает топологию.

@cgevent
24.04.2025, 13:55
t.me/cgevent/11990
Hunyuan 2.5: 3D-генераторы. Гонка продолжается.

На днях Хуньянь бахнул свою новую модель для генерации 3D моделей - Hunyuan 2.5 3D.

Пока вы можете посмотреть часовой стрим вот тут:
https://x.com/i/status/1915026828013850791

Кода нет для 2.5 нет, а попробовать это хозяйство вы можете тут:
https://3d.hunyuan.tencent.com/

Я не прорвался сквозь регистрацию через WeChat или китайский номер, поэтому подсобрал для вас информацию из сети.

Обещано многое:
Точность: новая модель с 10B параметрами (по сравнению с 1B) и в 10 раз большим количеством фейсов, обеспечивающая геометрические детали с разрешением 1024 - более гладкие поверхности, более четкие края.

Высококачественные текстуры и PBR: Первая(?) в отрасли многоракурсная генерация PBR для реалистичного освещения и отражений.

Авториг(!): Оптимизированный риггинг с автоматической привязкой костей и назначением весов меша.

Многоракурсная генерация 3D.

Бесплатная ежедневная квота удвоена до 20 для движка AI Engine, а API теперь доступен на Tencent Cloud.

И обратите внимание на Комфиподобный пайплайн, который прям внушает.

Выглядит нарядно, но давайте посмотрим, что там под капотом.

@cgevent
24.04.2025, 13:53
t.me/cgevent/11988
24.04.2025, 13:53
t.me/cgevent/11989
21
47
4.4 k
Кстати, генерацию с помощью модели gpt-image-1 завезут в Адобченко (Firefly и Express), Фигму, и даже в Heygen.

Непонятно, что будет с тарифами и подписками. Но скоро все затащат это к себе.

Почитайте тут, куда уже вонзают эту модель по API:

https://x.com/OpenAIDevs/status/1915097073743008241

@cgevent
23.04.2025, 23:02
t.me/cgevent/11987
169
4.5 k
23.04.2025, 22:45
t.me/cgevent/11985
170
4.5 k
23.04.2025, 22:45
t.me/cgevent/11984
168
4.4 k
23.04.2025, 22:45
t.me/cgevent/11983
168
4.4 k
23.04.2025, 22:45
t.me/cgevent/11981
167
4.4 k
23.04.2025, 22:45
t.me/cgevent/11982
169
4.5 k
23.04.2025, 22:45
t.me/cgevent/11986
52
169
4.1 k
Avatar FX: Вы будете смеяться, но у нас новый видео-генератор. И какой!

Поглядите сначала видосы.

Character.ai замахнулись на святое - говорящих котов. И вообще разных тварей. Я понимаю, что у них лютые черри-пики на сайте, но научить зайца курить животных говорить - это очень непростая задача. Они, животные для этого вообще не очень предназначены, у них челюсти сломаются от наших глаголов.

Выглядит дерзко - особенно с анимационными персонажами.

Более того, у них своя озвучка и своя модель Text-To-Speech.

В блоге очень много маркетинговой мути типа "наша мултимодальная команда" и "мы за безопасность во всем мире". Но есть вот такие сообщения:

Avatar FX может генерировать высококачественное видео 2D-анимационных персонажей, 3D-мультипликационных героев и нечеловеческих лиц (например, домашних животных!)

Он поддерживает первоклассную временную согласованность с движениями лица, рук и тела.

Он способен поддерживать эту временную согласованность даже в длинных видео.

Он может генерировать image2video.

Вот тут блог с маркетингом:
https://blog.character.ai/avatar-fx-cutting-edge-video-generation-by-character-ai/

Вот тут тьма видео:
https://character-ai.github.io/avatar-fx/

Вот тут прием в ранний доступ:
https://character.ai/video

Я записался. Жду

@cgevent
23.04.2025, 22:45
t.me/cgevent/11980
Repostar
36
64
3.8 k
OpenAI запустили API для генерации картинок через GPT

Модель обозвали GPT-Image-1. Кроме резолюшена позволяют выбрать и качество — от low до high. Крайне вероятно что это как-то обозначает именно количество ризонинга, а не количество шагов дифузии.

Прайсинг может кусаться — цена на high quality может доходить до 25 центов за картинку. Для сравнения: за картинку из Imagen 3 или HiDream-I1-Dev просят 3 цента, за Recraft V3 — 4 цента. Но это не означает что GPT не может конкурировать по цене — low режим стоит всего 1-2 цента за картинку, а medium в районе 7.

Как сильно отличаются картинки на разных уровнях качества — пока непонятно. В любом случае, GPT-Image-1 куда гибче конкурентов из-за своей архитектуры, то есть даже low качество может быть очень полезным. А за high качество, в отсутствии конкуренции, заламывать можно очень высокие цены. Появится конкуренция — цены заметно скинут, маржа у OpenAI такое позволяет, ждём Gemini 2.5 Pro Image Generation.

@ai_newz
23.04.2025, 22:19
t.me/cgevent/11979
103
162
5.8 k
Может ли ИИ заменить настоящую видеосъёмку? Мы это проверили.

Рубрика крутейшие подписчики.

Юру и Дениса я знаю примерно две тыщщи лет. Transparent House - это самая крутая студия продуктовой и архитектурной визуализации (и анимации) на северном побережье штатов. Просто поглядите на их сайт.

И вот пока мы тут в коментах хлещемся, какой генератор лучше, ребята взяли и провели тесты в реальном продакшене с очень высокими требованиями.

Hunyuan, Wan 2.1, Veo 2, Hailuo, 01-Live, Runway 4, Sora, Kling 1.6, Бонус: Luma (1/10)

Оригинальная статья тут:

https://www.transparenthouse.com/post/can-ai-replace-a-real-shoot-we-put-it-to-the-test

А я попросил Илюху Самохвалова перевести ее на русский.

Он прислал гугл-док со сылками на Vimeo, я попросил Gemini 2.5 сделать из-него веб-страницу, Гемини отказалась открывать гуглдок, тогда я просто напечатал его в ПДФ и сунул его ей в лицо.

Держите.

https://cgevent.ru/th.html

@cgevent
23.04.2025, 21:14
t.me/cgevent/11978
27
77
5.6 k
Перевод AI Index 2025 от Стэнфордского университета

Лидеры венчура. США - $109,1 млрд (в 12 раз больше, чем Китай с $9,3 млрд, и в 24 раз больше, чем Великобритания с $4,5 млрд).

Выигрыши. 49% отметили экономию в сервисных операциях, 71% - рост выручки в маркетинге и продажах.

Робототехника. В Китае установлено >276 300 промышленных роботов (51,1% мирового рынка, 2023).

Готовность учителей. 81% считают, что основы ИИ нужно учить в школе, но менее половины уверены в готовности преподавать ML и LLM.

https://habr.com/ru/amp/publications/902602/
23.04.2025, 14:09
t.me/cgevent/11977
23.04.2025, 13:39
t.me/cgevent/11976
50
90
5.3 k
Кстати, Gemini и chatGPT умеют компилировать статьи в формате Latex (кто из академии поймет).

И показывают его в Canvas

Надо просто попросить:
объясни мне формулы для аттрактора Лоренца, используй Latex для написания формул

Gemini отдает правильный код с первого раза, chatGPT (о3) отдал со второго.

Просто просите их отдать файл в формате Латех, а потом идете на
https://www.overleaf.com/ и вставляете (или открываете) там. Жмете Recompile.

П-Профит. В П-Пдф.

@cgevent
23.04.2025, 13:39
t.me/cgevent/11973
23.04.2025, 13:39
t.me/cgevent/11974
23.04.2025, 13:39
t.me/cgevent/11975
98
39
5.3 k
Эпоха уходит: Небольшой оффтоп.

Подводка: был такой гиковатый анекдот, что после смерти Джанни Версаче, Интел нанял команду маркетологов оттуда, чтобы внести полный хаос в именование своих модельных рядов.

Действительно, как просто было в 90-х. Я начинал свои эксперименты с Turbo-C на компе с процессором Intel 8086 XT и монохромным дисплеем Hercules с CGA разрешением 320х240.
Потом пересел на "атишку" 286 AT и был в восторге от EGA\VGA с разрешением 640х480.
Симуляция аэродинамики работала у меня в реалтайме(!).

Потом был 386-ой, а потом, о боги, появился 486-ой, который молотил с невероятной скоростью (которая ниже любого нынешнего телефона).
А потом случился .. Pentum. И что-то пошло не так.
Чтобы купить новый процессор Интел, надо было продираться свозь десятки наименований в модельном ряду чипов. А подбор мамы, памяти, блока питания стал темой для Deep Research.
Все эти заклинания i3/i5/i7/i9-14980/K/S/X/H/T/P/Y/F/G/U требовали погружения в тему.
Эпоха простых выборов ушла.

А сейчас читаю новость о том, что Intel объявит об увольнении более 21 000 сотрудников, что составляет 20 процентов от общего числа работников, на этой неделе, и понимаю, что мир железа меняется еще более стремительно.
У меня до сих пор есть две машинки Intel Nuke, в одной из который видеокарта Vega от AMD, а во второй RTX 3060 12 GB. Работают как часы.

И глядя на то, как уходит эпоха Intel мне немного грустно.

Хотя, как я уже писал, в нашем ИИ пузыре, сердцем вычислений становятся видеокарты, и главным критерием выбора оных, становится объем видеопамяти, а не частотки или бенчмарки. Есть память - есть скорость.

Мир изменился, это классно, но небольшая ностальгия не помешает для того, чтобы ощутить, как мы зажрались, перебирая щами и нытьём типа "долго считается, не хватает памяти, и пр"

Я вот радуюсь, что в облаке теперь можно попробовать любую, самую быструю вычислительную дурь, за ничтожные деньги.

Кстати, на runpod завезли 5090...

Ну, за Интел, добрым словом.

https://wccftech.com/intel-to-reportedly-announce-the-layoff-of-over-21000-employees-equal-to-20-percent-of-its-workforce-this-week/

@cgevent
23.04.2025, 12:58
t.me/cgevent/11972
Repostar
53
490
6.3 k
Anthropic вчера опубликовал, а сегодня на хабре перевели отличный гайд по использованию агентов в программировании, чтобы не ругаться на тупой chatgpt или Claude, когда он вам пол-проекта перепишет :)
Например там про то, чтобы план составить сначала:
https://habr.com/ru/articles/902422/
23.04.2025, 00:35
t.me/cgevent/11971
26
104
6.1 k
Тут на https://wan.video/ раздают бесплатную видеогенерацию в Relax Mode.

Говорят, что с 23 апреля All users can create stunning videos and images entirely free with Relax Mode.

Непонятно, сколько будет время ожидания, может час, а может сутки.

@cgevent
22.04.2025, 19:40
t.me/cgevent/11970
22.04.2025, 17:55
t.me/cgevent/11969
55
73
6.1 k
А зачем размениваться на какие-то сторонние сервисы для просмотра 3Д-моделей в предыдущем посте?

Идем в о3 и говорим:

а сейчас напиши мне код, для "OBJ VIEWER" который я смогу запустить в Canvаs и увидеть 3Д-модель. Там должна быть галочка "включить показ edges" ну или wireframe mode

сделай кнопку загрузить с компьютера

Бах! В канвасе, который он сам же и открыл появляется код на реакте и кнопка Preview. Жмем ея, видим наш 3D-viewer, загружаем нашу маску лица, включаем галку wireframe - и все работает!

Год назад разговор зумеров: слушай, есть такие прикольные аппки для вот этого и этого и этого.

Через год от сейчас: хочу аппку, которая делает вот это.

АПАЖАЛСТА!

@cgevent
22.04.2025, 17:55
t.me/cgevent/11968
22.04.2025, 17:46
t.me/cgevent/11964
22.04.2025, 17:46
t.me/cgevent/11966
32
53
5.3 k
Ну что, за 3Д-генераторы и MCP? Пока нет.

Идем в 4о или о3 и говорим:

А сделай мне 3Д-модель стола в формате STL, чтобы я мог бахнуть его на 3Д-принтер.

Нивапрос, апажалста.

Смотрим, что он сделал идеальную топологию и спрашиваем:

Питонг?

Угу. Хочешь ящик добавлю.

Довай!

Становится понятно, что он использует trimesh разные процедурные дела, чтобы сделать вот такие вот модельки.

Усложняем задачу:
Сгенерирую маску лица на 5000 полигонов, также как ты генерируешь текстовые файлы в других форматах, не бойся ошибиться. если тебя пугает размер файла, давай сделаем в формате OBJ. Сделай вздох, подумай хорошо, посмотри в интернете как устроены человеческие лица в программах типа Zbrush и сделай хорошую маску в формате OBJ на 4000 полигонов.

Задумался "The user wants a manually created STL file, so my first instinct is to avoid algorithmic generation. "

Держи!

В общем, держите, лицо от chatGPT - он художник, он так видит. Чолка зачотная.

Хошь, говорит, глазки вырежу?

Довай.

Понятно, что процедурно, вы сможете попросить его сделать довольно сложные вещи кодом и он сделает (кстати, надо попробовать попросить написать geometry nodes для Блендора). И тут вам даже не нужен MCP, если у вас хорошо подвешен язык и есть понимание как работает 3Д (это универсальное правило про MCP).

Но он честно пытается помять плоскость и выдавить маску лица! Мне это сильно напоминает работы студентов в Maya, когда я давал им сферу и возможность кисточками выдавить маску лица (sculpting), он просто еще двухлетка и плохо держит кисть..

В общем, покуролесьте.
И держите https://3dviewer.net/index.html

@cgevent
22.04.2025, 17:46
t.me/cgevent/11963
22.04.2025, 17:46
t.me/cgevent/11965
22.04.2025, 17:46
t.me/cgevent/11967
79
300
6.1 k
Новая опенсорсная и очень эмоциональная модель для озвучки(TTS).

Dia - это модель преобразования текста в речь с 1,6 млрд параметров, созданная в Nari Labs.

Есть код:

https://github.com/nari-labs/dia

На взрослых GPU может выдавать реалтайм. Жрет 10GB, но разрабы обещают кванты.

Разрабов, кстати, 1.5 человека. Один на парт тайме.

Есть неофициальное демо, официальное висит.

https://huggingface.co/spaces/mrfakename/dia-1.6b

@cgevent
22.04.2025, 11:26
t.me/cgevent/11962
43
159
7.4 k
Vidu Q1: Сорри, я опять с этими видеогенераторами.

Китайцев покусал OpenAI и после версии Vidu 2.0 они выпустили версию Q1. Во втором квартале.

Что нового:
Сильно прибрали мыло.
Первый и последний кадр.
Звук и звуковые эффекты.
1080р
24fps

Можно и нужно тестировать, тем более, что по промокоду VIDUQ1 дают +100 кредитов на новый акк(тоже 100), плюс наваливают ещё немного(20) каждый день.

https://www.vidu.com/

@cgevent
22.04.2025, 11:14
t.me/cgevent/11961
22.04.2025, 00:00
t.me/cgevent/11956
37
61
5.9 k
Погонял MAGI-1 у них на сайте.
Разрешение действительно конское: 1688х1440. Но мыла наваливает тоже нехило.

Наваливайте примеры в коменты.

@cgevent
22.04.2025, 00:00
t.me/cgevent/11953
22.04.2025, 00:00
t.me/cgevent/11957
22.04.2025, 00:00
t.me/cgevent/11958
22.04.2025, 00:00
t.me/cgevent/11959
22.04.2025, 00:00
t.me/cgevent/11955
22.04.2025, 00:00
t.me/cgevent/11954
22.04.2025, 00:00
t.me/cgevent/11960
173
6.3 k
21.04.2025, 23:45
t.me/cgevent/11947
174
6.3 k
21.04.2025, 23:45
t.me/cgevent/11949
174
6.3 k
21.04.2025, 23:45
t.me/cgevent/11950
173
6.2 k
21.04.2025, 23:45
t.me/cgevent/11948
175
6.5 k
21.04.2025, 23:45
t.me/cgevent/11952
176
6.5 k
21.04.2025, 23:45
t.me/cgevent/11951
53
178
5.9 k
Вы будете смеяцца, но у нас новый (авторегрессионный притом) видеогенератор.

Его зовут MAGI-1 и при нем есть все кунштюки:
Сайт, где можно генерить - 500 кредитов на новый акк, 3 секунды генерации - 30 кредитов.
Техническая папира.
И код!!

Как всегда есть вопрос про разницу в коде на сайте и гитхабе.

Но.

Обещаны прям сладкие штуки:
🌀 Infinite video extension – no stitching, no cuts. Just pure, seamless storytelling.
⏱️ Second-level timeline control – precision at every frame.
⚙️ Physics-aware motion dynamics – scenes that actually make sense.
📽 From one photo to full motion – cinematic results from a single still.

А еще он генерит в каком-то конском разрешении.

Я погенерил у них на сайте, там претензия на нодовый пайплайн в духе glif.app. Скачивание видосов напрямую неочевидно, но вы справитесь (я же справился).

Главные фишки - возможность продолжать видеотрек и конское разрешение.

А теперь за код: там две модели 24B и 1.5B. Так вот, чтобы запустить 24B вам на ВОСЕМЬ H100(!).
Чтобы запустить малую, вроде как надо 4090.

Завтра проверю, сегодня перегрелся под вентиляторами H100.

Сделал пару проб. Дам в след посте.

→ MAGI-1 generates videos chunk-by-chunk using autoregressive denoising on 24-frame segments, enabling streaming generation and temporal consistency.

→ Built on a transformer-based VAE with 8x spatial and 4x temporal compression, it achieves fast decoding and competitive reconstructions.

→ Diffusion Transformer backbone includes innovations like Block-Causal Attention, GQA, SwiGLU, Sandwich Norm, and Softcap Modulation for scalable training.

→ A shortcut distillation approach supports variable inference budgets and includes classifier-free guidance.

→ MAGI-1 outperforms all open models in instruction following, motion quality, and physics prediction in both V2V and I2V.

→ Supports controllable generation with chunk-wise prompts for long-horizon synthesis and scene transitions.


https://github.com/SandAI-org/Magi-1

@cgevent
21.04.2025, 23:45
t.me/cgevent/11946
Repostar
23
58
5.0 k
SkyWorks: выпустили в опенсорс версию V2 своего видеогенератора SkyReels. Писал о них ранее.

В тираж пошли две модели: большая на 14B параметров и мелкая на 1.3B. Выдают видео в разрешении 540p (544 х 960) или 720p (720 x 1280). Позже в опенсорс прибудет промежуточная модель на 5B параметров и модель для управления камерой. 1.3B и 5B могут генерить видео длиной до 97 кадров, а 14B до 121 кадра.

При этом фичей данного релиза является Infinite Length или Diffusion Forcing — возможность создавать видео любой длины. Работает как отдельная модель с приставкой DF, которая может брать на вход как текст, так и картинки. Пока только в 540p. Можно играться с количеством кадров идущих внахлест, но может упасть качество. Потенциально у нас может быть ещё один генератор длинных видосов как FramePack.

Под капотом используется мультимодальная языковая модель, которая которая описывает полное видео в общих чертах, а также остро-заточенные мелкие эксперты, описывающие кадры. Разрабы выпустили отдельно модель для аннотирования видео данных — SkyCaptioner-V1.

Для генерации видео с разрешением 540P с помощью модели 1.3B требуется около 15 ГБ VRAM, а для видео с тем же разрешением с помощью модели 14B около 52 ГБ VRAM.

Судя по 30 сек примерам с твиттера качество хорошее, и динамичность на длинной дистанции удерживается неплохо. Но при этом все репостят одни и те же видео, а на сайте не пишется генеришь ты в V2 или предыдущей модели.

Kijai уже наваял веса. Хотел погонять на винде на 4090, но выяснилось, что нужен triton. Поставил его, но всё равно не завелось. У кого линь скиньте в комментах, что у вас получилось.

Если появится онлайн демка пришью к посту.

Сайт
Гитхаб
Хаггинг
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
21.04.2025, 22:23
t.me/cgevent/11943
Repostar
56
5.3 k
21.04.2025, 22:23
t.me/cgevent/11944
Repostar
57
5.3 k
21.04.2025, 22:23
t.me/cgevent/11945
131
12
5.6 k
Все, что вы хотели знать про каналы про ИИ.

Круто эти (и не только эти) ребята у меня посты тырят. Даже картинки лень самим генерить, украли мои и ну выдавать за свои. Раньше просто копипастили, сейчас чуть переписывают. С-Совесть, не иначе. Правда автора указать совести уже не хватило.

@cgevent
21.04.2025, 19:59
t.me/cgevent/11942
60
377
6.0 k
Кстати, кому интересно, Микрософт опенсорснул вот такой питонг-тул, для конвертации любых документов в MarkDown.

С потерями, конечно, но поглядите, что он умеет конвертировать:

- PDF
- PowerPoint
- Word
- Excel
- Images (EXIF metadata and OCR)
- Audio (EXIF metadata and speech transcription)
- HTML
- Text-based formats (CSV, JSON, XML)
- ZIP files (iterates over contents)
- Youtube URLs
- EPubs

Он даже звук и картинки на вход принимает, и описывает их.

https://github.com/microsoft/markitdown

@cgevent
21.04.2025, 19:51
t.me/cgevent/11941
33
117
5.2 k
Ну и на закуску держите поддержку FramePack в Комфи:
https://github.com/kijai/ComfyUI-FramePackWrapper
21.04.2025, 19:46
t.me/cgevent/11940
186
5.2 k
21.04.2025, 19:31
t.me/cgevent/11937
55
186
4.5 k
Ну и давайте разберемся с новым фаворитом в видеогенериации - FramePack

Это новая игрушка от господина Жанга(автора Фокуса, Форджа, первого контролНета, IC Light, гения в общем).

И в теории она может генерить Бесконечные видео. Вот тут можете почитать про его остроумный алгоритм.
https://lllyasviel.github.io/frame_pack_gitpage/
Diffuse thousands of frames at full fps-30 with 13B models using 6GB laptop GPU memory.
Finetune 13B video model at batch size 64 on a single 8xA100/H100 node for personal/lab experiments.
Personal RTX 4090 generates at speed 2.5 seconds/frame (unoptimized) or 1.5 seconds/frame (teacache).
No timestep distillation.
Video diffusion, but feels like image diffusion.

Все это построено на базе Hunyuan, и я так понимаю, прикручивается к чему угодно.

А теперь внимание: это все работает на картах с 6Гиг VRAM!!
Да, вы не ослышались.

Сразу оговорюсь, что это скорее хороший шевелятор объектов в кадре, чем управлятор камерой. И чтобы распробовать его, а заодно оценить пригодность к лорам и "докручиванию" потребуется некоторое время.

Но сейчас могу сказать, что для быстрого "оживляжа" - это пожалуй, самое ловкое и экономичное решение, если брать опен-сорс.

Я действительно генерил двух-минутные видео, их сложно присовывать сюда из-за размера. И надо сказать, что на H100 это было реально быстро, но я пошел еще дальше. Решил сравнить скорость на immers.cloud и на своем все еще живом от перегрева ноуте с RTX 2080.

На линукс это встает просто с одного пинка, в облаке не было проблем совсем. Запускаем gradio-морду, она качает тонну моделей и сама все делает.
Для Windows и локальной установки уже есть простой архив тут:
https://github.com/lllyasviel/FramePack/releases/download/windows/framepack_cu126_torch26.7z

Качаете, распаковываете, сначала запускаете update.bat, потом run.dat. Там внутри, скрытый от нормальных людей env с питонгом и всеми установленным библиотеками. Просто запускаете эти два файла и у вас поднимается браузер (а не комфи-ад) куда можно пехать свои картиночки и оживлять их, ведь это image2video.

Но есть три момента, о которых вам никто не расскажет.

Если у вас все скачалось и начало запускаться, а потом просто упало, то у вас маленький файл подкачки на винде. Сделайте его min=10000, max=20000 и у вас все заведется.

Второе, если у вас 16гиг RAM (не VRAM), то у вас проблемы. Некуда выгружать модели из GPU. Будет либо медленно совсем, либо падать. Мои 32 гиг выжирает полностью.

Третье, если у вас 2080(как у меня) или упасихоспади 1680, то они не умеют работать с bfloat18 и вам нужно аккуратно взять файлы отсюда и использовать их:
https://github.com/freely-boss/FramePack-nv20

Но FramePack - это Fooocus Moment для видео. Видеогенерация запускается на рисоварках типа 2080 8 гиг VRAM.

В итоге, вот вам любопытное сравнение.
Я прогнал тесты на RTX 2080 и H100.
RTX 2080 - 2 секунды генерились час.
H100 - 2 секунды генерились 56 секунд.
Я бы озверел делать эти длинные видео локально.

Погоняйте у себя, напишите как у вас успехи с FramePack

@cgevent
21.04.2025, 19:31
t.me/cgevent/11935
187
5.4 k
21.04.2025, 19:31
t.me/cgevent/11939
185
5.4 k
21.04.2025, 19:31
t.me/cgevent/11938
188
5.1 k
21.04.2025, 19:31
t.me/cgevent/11936
21.04.2025, 18:36
t.me/cgevent/11934
44
30
4.9 k
Далее тестируем первый и последний кадр в Wan FLF 2.1 14B 720P.

Как я уже писал, эта функция выбора двух кадров уже давно была у них на сайте, но в опенсорс они выложили ее только сейчас. И выложили они самую тяжелую модель на 14B 720P.

Надо сказать, что у них совершенно иезуитский способ именования моделей, запускаемых питонг-файлов и папок. Сломал глаза, пока все скачал, по дороге кончилось место на immers.cloud, снеc HiDream и все таки завел это хозяйство. И да, это отдельная конская модель.

Ну что сказать, в чистом непожатом видео это даже не для солидных господ.
Даже на H100 с Flash Attention 3 пятисекундное видео с минимальным количеством шагов (10) считается 6 минут и жрет ВСЮ память (80934 Гига). Виной тому разрешение 720P. А для 480P модель выложить не удосужились. 50 шагов - полчаса на H100. До свидания.

Тем более Киджай уже сделал воркфлоу для пожатой модели для Комфи. Пойду посмотрю, что там. Но в чистом видео это непригодно.
Боюсь, что в Комфи тоже будет медленно:
https://github.com/kijai/ComfyUI-WanVideoWrapper/tree/main/example_workflows

Кадры взял из HiDream. Есть ощущение, что он натренирован именно на людях и природе, ибо абстрактные картинки понимает с трудом что ли.

@cgevent
21.04.2025, 18:36
t.me/cgevent/11930
21.04.2025, 18:36
t.me/cgevent/11931
21.04.2025, 18:36
t.me/cgevent/11932
21.04.2025, 18:36
t.me/cgevent/11933
21.04.2025, 17:57
t.me/cgevent/11926
21.04.2025, 17:57
t.me/cgevent/11924
21.04.2025, 17:57
t.me/cgevent/11928
21.04.2025, 17:57
t.me/cgevent/11927
59
50
4.8 k
Тяжелый понедельник начнем с тяжелых тестов.

У нас на разделочном столе (H100) три новых участника хитпарада прошлой недели: HiDream, Wan FLF 2.1 720P и огненный FramePack от господина Жанга(автора Фокуса, Форджа, первого контролНета, IC Light, гения в общем).

Начнем с HiDream.
Как я и обещал в пятницу расчехлил свой H100-сервак на immers.cloud, чтобы погонять вышеозначенных господ, посмотреть расходы памяти и времени. И сдается мне, что вторым, после GPU, важным компонентом, становятся SSD диски.
Я брал самый жирный сервак с 480Гиг диском и надо сказать, мне не хватило места на диске, постоянно приходилось что-то сносить. То Wan качнет 200 гиг за раз, то Комфи попросит скачать 200Гиг, FramePack тоже не отстает.
Ну и кстати, как я уже писал вот тут, сервер в нерабочее время надо не стоппить, а отправлять в хибернацию (SHELVED) - так вот, выход из хибернации может занимать 20-30 минут, если у вас конский размер диска, надо просто быть к этому готовым.

Итак, я сначала я накатил новый побиватель Image Arean - HiDream, чтобы погонять его на память и на NSFW.
Надо сказать, что полная версия выглядит монстроподобно - потребление 62Гига VRAM. Скорость генерации 30 секунд на полной модели Full, отсутствие лор (пока) и управления. Похоже, что он будет доступен прежде всего в API и на сайтах типа Фрипика и Креа.

Но тут пришел апдейт от Самих Комфи про нативную поддержку HiDream. Я, естественно, бросился, проверять.

И нашел новый Template Manager в Комфи, в котором уже собраны нативные форкфлоу для очень большого количества моделей. Не очень интуитивно, но проходимо. Надо ткнуть в Images, потом в HiDream (выбрать full, dev, fast).
Дальше выскочит окно "а скачайка модели сам!" и "почитай доки, куда это рассувать".
Я отдельным постом взору про Комфи пожалуй, ибо накипело.
Скачал, рассувал - на удаленной машине в облаке это несильно удобно и решает командная строка и WinSCP, благо на immers.cloud он подцепляется без проблем.
Комфи работает со своими "оптимизированными" моделями HiDream(читай снова давай 200 гиг), и содержит также пожатые версии.
Что я намерил:
Чистый HiDream (через gradio) - чуть быстрее, 30 сек, 1.5 it/s, модель Full, 50 шагов.
Comfy HiDream (через Comfy) - чуть медленне, 37 сек, 1. 5 it/s, модель Full, 50 шагов.

Зато память есть не 62, а в районе 30 гиг VRAM. Есть и более пожатые версии, но мы сейчас не о них.

В NSFW HiDream исполняет гораздо лучше любой модели из коробки (Flux, SD3.5, Reve), знает анатомию, но конечно хуже, чем любая специально обученная лора к флюксу или SD.

Также держите пару хинтов для генерации в HiDream:
Пользуйте Dev, от в три раза быстрее.
Понижайте SD3 Sampling до 2 и меньше, пишут, что 1.72 хороший выбор.
Euler sampler with ddim_uniform scheduler at exactly 20 steps

Будет выгодно отличаться от Флюкса и лучше делать лица.

А мы пойдем дальше, зря что ли H100 нагревал.

@cgevent
21.04.2025, 17:57
t.me/cgevent/11922
21.04.2025, 17:57
t.me/cgevent/11923
21.04.2025, 17:57
t.me/cgevent/11925
21.04.2025, 17:57
t.me/cgevent/11929
142
6.5 k
21.04.2025, 14:40
t.me/cgevent/11919
143
6.5 k
21.04.2025, 14:40
t.me/cgevent/11920
145
6.4 k
21.04.2025, 14:40
t.me/cgevent/11918
142
6.5 k
21.04.2025, 14:40
t.me/cgevent/11921
34
144
6.2 k
Держите еще один забавный 2Д- и 3Д-генератор.

Я когда увидел видео с механизмом, аж подскочил.

Быстро зарегался, и ну генерить.

Но нет, ни о каких сплайнах и Кадовских моделях тут речь не идет.

Зато я нашел полубесплатный (есть лимиты) генератор картинок, и 3Д-моделей по этим картинкам.

Более того, у них там что-то типа MCP сервера и можно разговаривать с генерациями, делать их потолще или повыше. В общем вайб-моделинг с параметрическими рульками (что удивляет).

Для этого есть "Параметрическая Генерация" - до нее не добрался, надо делать бесплатный триал на 7 дней, но идея мне нравится.

Полигональные сетки (отдает любые форматы) - говно. Но для 3Д печати могут сгодиться.

Семизубчатую шестеренку он мне, конечно, не сделал. Сделал обычную. Но удивительно, то голову собаки в 3Д сделал моментально.

Попробуйте, забавная игрушка.

https://www.adamcad.com/

CAD в названии - фейк

@cgevent
21.04.2025, 14:40
t.me/cgevent/11917
1.2 k
19 k
21.04.2025, 00:51
t.me/cgevent/11915
1.2 k
19 k
21.04.2025, 00:51
t.me/cgevent/11913
1.2 k
19 k
21.04.2025, 00:51
t.me/cgevent/11916
1.2 k
19 k
21.04.2025, 00:51
t.me/cgevent/11912
1.2 k
19 k
21.04.2025, 00:51
t.me/cgevent/11914
180
1.2 k
19 k
Ну за шрифтовых дизайнеров!

А заодно за векторизацию.

Идете в chatGPT (хоть в 4o, хоть в o4)

И говорите:
Design a type specimen sheet that clearly displays every character of the English alphabet and numerals in a clean, consistent layout. Include all uppercase letters (A–Z). Arrange them in a precise grid layout with ample vertical and horizontal padding to ensure no characters are cropped or cut off. Sort characters alphabetically and numerically in clearly defined rows or sections. [Use a cyberpunk] aesthetic with black glyphs on a white background. Ensure the typeface style is uniform across all characters, with sharp lines, balanced proportions, and ideal legibility for typography development. Explicitly render the following characters with full visibility and spacing: A B C D E F G H I J K L M N O P Q R S T U V W X Y Z

Вместо [Use a cyberpunk] можете использовать use serif, use pixelated, use bubble - как у меня на картинках, или придумать что-то поумнее.

Получите новые шрифты, доселе невиданные.

Тут вы возопите, этожрастр!

Ну ок, подаете ему картинку на вход и говорите "Do not OCR picture, just trace inner and outer contours of every symbol and make svg file"

Получаете контура.

Заливка - апжлста!
now fill letters with black, fill only space between inner and outer countour - сделал скриншоты, могу скинуть SVG в коменты, если не верите.

Покуролесим?

@cgevent
21.04.2025, 00:51
t.me/cgevent/11911
120
41
5.6 k
Вот мы все ждали кнопку "Сделать красиво".

Дождались. Но никто не обещал в дороге кормить и то, что кнопка будет одна!

Вы тоже мучаетесь?

Теперь ждём бальшую кнопку "Выбрать нужную кнопку".

Одну.

Ибо выбирать - не барское это дело. Свободу воли оставьте ИИ.

Нажимать, не мешки ворочать.

@cgevent
19.04.2025, 13:52
t.me/cgevent/11910
19.04.2025, 13:51
t.me/cgevent/11909
38
233
5.4 k
Для тех, кто исполняет в Antropic Claude Code

Свежайший, пахнущий кодом и краской, гайд по программированию агентов от Антропика:

https://www.anthropic.com/engineering/claude-code-best-practices

@cgevent
19.04.2025, 13:38
t.me/cgevent/11908
Repostar
41
55
4.6 k
В качестве субботнего поста для вдохновения хочу рассказать про конкурс научной микрофотографии Small World, которому в этом году исполняется, на секундочку, 50 лет! Номинация Photomicrography Competition существует с 1975 года. А с 2011 года была добавлена еще номинация Small World in Motion, в которой соревнуются видеоролики, отснятые так же под увеличением микроскопа.

Помимо возможности посмотреть работы по годам в каждой номинации (по ссылкам выше), их можно также отсортировать по технике съемки (а там чего только нет — стереомикроскопия, флуоресценция, оптогенетика, поляризованный свет, разные виды томографии и т.д.).

Но так как нас с вами в первую очередь интересует тема «нервной ткани», есть еще прекрасная сортировка по темам, среди которых можно найти, к примеру:
— Мозг
— Нейрон
— Мозжечок
— Гиппокамп

А также можно найти ретину, клетку Пуркинье (ту самую, что была на обложке книги The Beautiful Brain c рисунками Сантьяго Рамона-и-Кахаля, о которой я рассказывал ранее) и небольшие категории гипоталамуса и коры.

На обложке поста (ниже) ссылка на 48-часовой таймлапс роста нейронов нервной системы эмбриона курицы, занявший 1-е место в 2023 году.

В разрезе упомянутой книги, интересно наблюдать как развивались техники нейровизуализации, от метода Гольджи, который использовал Кахаль, до различных современных методов оптогенетики вроде Brainbow, который, к слову, тоже есть в техниках конкурса.
19.04.2025, 13:24
t.me/cgevent/11907
33
118
4.9 k
Весь нейрориг из предыдущего поста - это Vast AI Research - авторы Tripo 3D.

https://github.com/VAST-AI-Research/UniRig

Похоже остались два крупных 3д-нейроигрока: Tripo 3D и DeemosTech(Rodin) - по крайней мере с продуктовой точки зрения.
3д-генераторов много: от Хуня3Д до Trellis, но именно упаковка и подстраивание под традиционные пайплайны есть у немногих.

И обратите внимание, как технично отмалчиваются Maya, Max, Houdini, Conema4D.

И Блендор такой: готов на любые извращения!

@cgevent
19.04.2025, 12:52
t.me/cgevent/11906
248
5.5 k
19.04.2025, 12:42
t.me/cgevent/11905
83
249
5.5 k
Ну за ригеров.

UniRig: One Model to Rig Them All

А вот это уже нейронная бомба, точнее нейрориг, каким я его себе представляю.

На входе не обязательно 3д-генерация, это может быть ваша модель.

Дальше нейросетка анализирует топологию меша (работает и с бипедами, и с четвероногими, и вообще с объектами типа морковки) и строит внутри оптимальные скелет.
А далее, внимание, подбирает веса скининга (кто в теме, знает, что это развесовка влияния костей на вертексы меша). Ну то есть нейроскиннинг.

Но и это ещё не всё!

Далее подбираются Bone Attribute Prediction, веса для остаточных движений, типа мышц, дряблой кожи, джиггла. Каково? (Зива вздрагивает).

Ну и самое главное:
Human-in-the-Loop Ready: Designed to potentially support iterative refinement workflows - то есть результат можно доводить ручками(это важно) и отправлять обратно на улучшения.

Более того, туда можно присунуть не только свой меш, но и свой развесованный риг.

Все это на основе
Блендора. Но fbx никто не отменял.

Supported input formats: .obj, .fbx, .glb, and .vrm

Уже есть код для предсказания и вставки скелета, скининг и атрибуты обещают позже.

И жрет это всего 8 гиг видеопамяти.

@cgevent
19.04.2025, 12:42
t.me/cgevent/11904
122
276
6.3 k
Krea.ai, что ты делаешь, прекрати!

Krea Stages - вытаскиваем из картинки 3д, генерим 3д, и трансформируем 3д.

И даже деформируем!

Да, вам не почудилось. Это паранейроавториг.

Поглядите на зайца-побивальца.

Может пора эксгумировать Метаверс?

@cgevent
18.04.2025, 21:07
t.me/cgevent/11903
157
6.7 k
18.04.2025, 13:57
t.me/cgevent/11902
44
159
6.5 k
Помните на сайте wan.video была опция выбора первого И ПОСЛЕДНЕГО кадра для генерации видео?

На сайте было, а в коде нет.

Так вот, вчера завезли все это добро в код.

Причем сразу в большую модель 14B с разрешением 720P.

Просто обновляем Wan и ну тестировать. Пойду раcчехлять облачный сервак на immers.cloud

Что нового:
Frame conditional control:
‒ Perfectly replicates reference visuals
‒ Precise instruction-following
‒ Smooth transitions + real-world physics adherence
‒ Cinema-quality 720P output

https://github.com/Wan-Video/Wan2.1

И да, Киджай уже сделал ноды на Комфи.

@cgevent
18.04.2025, 13:57
t.me/cgevent/11901
61
183
5.5 k
Wan 2.1 + Vace

Для к гиков. Похоже, что эта связка далеко пойдет. Опенсорсный (с кодом) контролНет для видео.

Про Vace писал вот тут.

Я удивлен, как он дорисовал глаза, ведь на исходнике они закрыты.

Проблема в тайминге. Wan не умеет в длинные видео.

Но я скора запощу про того, кто умеет в бесконечные видео.

Сурс

@cgevent
18.04.2025, 13:41
t.me/cgevent/11900
Os resultados da pesquisa são limitados a 100 mensagens.
Esses recursos estão disponíveis apenas para usuários premium.
Você precisa recarregar o saldo da sua conta para usá-los.
Filtro
Tipo de mensagem
Cronologia de mensagens semelhante:
Data, mais novo primeiro
Mensagens semelhantes não encontradas
Mensagens
Encontre avatares semelhantes
Canais 0
Alta
Título
Assinantes
Nenhum resultado corresponde aos seus critérios de pesquisa