Telegram channel page: Psy Eyes • @psy_eyes

PS

Psy Eyes

5 590 subscribers

1

4715f5ab-bfd8-467f-b695-c5241a94605a.mp4

04/24/2025, 23:51

t.me/psy_eyes/2649

PS

Psy Eyes

5 590 subscribers

9

190

twitter_1745526531538.mp4

Higgsfield: выпустили Turbo версию своего генератора видео. Она в 1.5 раза быстрее базовой модели, на 30% дешевле, и генерации имеют приоритет в очереди.

Качество изображения на высоком уровне, а по реалистичности и динамике где-то даже превосходит конкурентов. Text-2-vid выдаёт 720p в 30fps, но на фантастичных сюжетах далёких от тренировочных датасетов легко словить шумы и артефакты. Для более стабильных результатов стоит использовать картинки, которые можно кормить разных размеров. Следованию промту хорошее (пусть и не без косяков) и есть улучшатель. Судя по черрипикам цензура лайтовая.

Отдельного внимания заслуживают пресеты движения камеры (похожее есть в Luma) и эффекты как в Pika. Их можно комбинировать и вес каждого менять ползунком как в Krea. Многие результаты на сайте и в твиттере выглядят довольно реалистично.

Сейчас они добавили 7 новых пресетов/эффектов:

* FACE PUNCH — удар в лицо, и не обязательно кулаком
* ARC (left/right) — облёт слева/справа
* JIB (up/down) — подъём/опускание камеры
* DOUBLE DOLLY — наезд или отъезд с изменением фокусного расстояния
* STATIC — статичная камера

Пресеты можно запускать без промта, но он не помешает. Я задал ARC RIGHT вокруг кота, а камера стала крутиться влево. Kling с этим справился ловчее, в том числе в плане качества.

Бесплатного аккаунта хватит на два видео и пару картинок. Одно видео генерится минут 10. Подписка от $9.

Сайт
Твит
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin

04/24/2025, 23:51

t.me/psy_eyes/2643

PS

Psy Eyes

5 590 subscribers

1

0ef3b305-1208-4448-bc04-35a230638f3a.mp4

04/24/2025, 23:51

t.me/psy_eyes/2646

PS

Psy Eyes

5 590 subscribers

1

6ddd10fd-74c3-4398-af5c-b3f2f7be2219.mp4

04/24/2025, 23:51

t.me/psy_eyes/2647

PS

Psy Eyes

5 590 subscribers

1

dd9744ea-e434-4d40-9585-4c5be95be093.mp4

04/24/2025, 23:51

t.me/psy_eyes/2645

PS

Psy Eyes

5 590 subscribers

1

twitter_1745526321060.mp4

04/24/2025, 23:51

t.me/psy_eyes/2644

PS

Psy Eyes

5 590 subscribers

1

943e1d38-541e-49ba-b846-97ac42b34ad8.mp4

04/24/2025, 23:51

t.me/psy_eyes/2648

PS

Psy Eyes

5 590 subscribers

1

ssstwitter.com_1745520097258.mp4

Pika: теперь эффекты можно применять не только к картинкам, но и к видео.

На данный момент доступно 4 опции:
* It's Alive — оживление вещей
* Duplicate it — дублирование объектов в кадре
* Wizard Cat — шапка волшебника
* It's Computer — когда не прошёл капчу

Видео должно быть минимум 5 секунд длиной.

PS: Remade уже поди начали печь опенсорс версии версий для Wan и LTXV.

Сайт
Твит
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin

04/24/2025, 21:57

t.me/psy_eyes/2642

PS

Psy Eyes

5 590 subscribers

1

twitter_1745509470813.mp4

JEN: этот музыкальный генератор выкатил фичу StyleFilter, позволяющую применить к сгенерированному на платформе треку стиль артиста из библиотеки. При этом музыкант получает выплаты. Я писал, что подобное будет, и вот мы уже здесь.

Работает это через маркетплейс, где ты выбираешь артиста и конкретный трек, стиль которого надо применить. Дальше, покупаешь фильтр либо со слабым следованием стилю за $4.99 либо с сильным за $7.99. Сколько с этого получает артист, каким образом, и в какие сроки неизвестно.

Подключается фильтр кнопкой в интерфейсе генерации рядом с Jenerate. Дальше пишем промт, слушаем превью как это будет звучать, и генерим. Применить можно максимум на 90 минут музыки.

Из артистов на данный момент доступна только Imogen Heap (подгружать свою музыку и тренировать лору нельзя). Плохо, что не дают менять стиль уже сгенерированных треков, или хотя бы услышать пусть и в зашакаленном превью как это могло бы быть, чтобы подстегнуть к покупке. При этом на странице фильтра внизу можно послушать треки, к которым фильтры уже применили, но без возможности переключить в оригинал это мало о чём говорит.

Собственно Riffusion, Suno, Udio уже наложение стиля предлагают по загруженным рефам. Причём Riffusion идёт дальше, позволяя персонализировать AI под свой стиль. А там глядишь и свои лоры тренировать дадут с монетизацией.

Проблема JEN остаётся прежней — плохое качество генерируемого материала (скорее всего из-за ограниченности датасета лицензионным каталогом). Пока они это не решат массовая аудитория не придёт.

Сайт
Твит
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin

04/24/2025, 19:52

t.me/psy_eyes/2641

PS

Psy Eyes

5 590 subscribers

31

804

04/23/2025, 21:10

t.me/psy_eyes/2635

PS

Psy Eyes

5 590 subscribers

31

810

04/23/2025, 21:10

t.me/psy_eyes/2637

PS

Psy Eyes

5 590 subscribers

31

809

04/23/2025, 21:10

t.me/psy_eyes/2638

PS

Psy Eyes

5 590 subscribers

31

803

04/23/2025, 21:10

t.me/psy_eyes/2632

PS

Psy Eyes

5 590 subscribers

31

806

04/23/2025, 21:10

t.me/psy_eyes/2636

PS

Psy Eyes

5 590 subscribers

32

805

04/23/2025, 21:10

t.me/psy_eyes/2640

PS

Psy Eyes

5 590 subscribers

31

803

04/23/2025, 21:10

t.me/psy_eyes/2633

PS

Psy Eyes

5 590 subscribers

31

809

04/23/2025, 21:10

t.me/psy_eyes/2639

PS

Psy Eyes

5 590 subscribers

31

804

04/23/2025, 21:10

t.me/psy_eyes/2634

PS

Psy Eyes

5 590 subscribers

31

704

Tenstorrent — новый конкурент Nvidia в потребительском и серверном сегменте GPU.

У истоков компании Джим Келлер, архитектор микропроцессоров Apple, AMD, и Tesla, занимающийся этим уже 40 лет. Он был ведущим разработчиком чипа для автопилота Tesla, а также процессоров Athlon и Ryzen, позволивших AMD забрать у Intel ощутимую часть рынка.

Tenstorrent выпускают GPU на основе открытой модульной архитектуры RISC-V, с возможностью расширения набора инструкций под задачи и оптимизации разных AI моделей для запуска на их железе. Также эти GPU используют технологию network on chip для обмена данными между разными частями микросхемы с помощью сетевой архитектуры, что позволяет ускорить обработку данных и легко масштабироваться.

В отличие от Nvidia, аппаратные решения которых являются закрытыми для разработчиков, Tenstorrent полностью открывают в опенсорс программный стек, позволяя разработчикам получить доступ к железу на всех уровнях. Есть SDK для работы на софтверном уровне (TT-Buda), аппаратном (TT-Metalium), а также компилятор TT-Forge для работы с разными ML-фреймворками.

Продукты:

* Blackhole p100 ($999) — 28 ГБ GDDR6 // TDP 300 Ватт // активное охлаждение // 2-слотовая // PCIe 5 // ATX 3.1 // 16 RISC-V ядер и 120 Tensix ядер // без входа Ethernet.

* Blackhole p150 ($1399) — 32 ГБ GDDR6 // TDP 300 Ватт // активное или пассивное охлаждение // 2-слотовая // PCIe 5 // ATX 3.1 // 16 RISC-V ядер и 140 Tensix ядер // есть 4 Ethernet порта для объединения памяти нескольких видюх в общий пул.

* Wormhole n150 (от $999) — 12ГБ GDDR6 // TDP 160 Ватт // активное или пассивное охлаждение // 2 или 3-слотовая (зависит от охлада) // PCIe 4 // 72 Tensix ядра // есть 2 Ethernet порта и мосты а-ля SLI для объединения памяти нескольких видюх в общий пул.

* Wormhole n300 (от $1399) — 24ГБ GDDR6 // TDP 300 Ватт // активное или пассивное охлаждение // 2 или 3-слотовая (зависит от охлада) // PCIe 4 // 128 Tensix ядер // есть 2 Ethernet порта и мосты а-ля SLI для объединения памяти нескольких видюх в общий пул.

* TT-Quietbox Blackhole ($11 999) — рабочая станция с жидким охлаждением на базе 4 Blackhole p150 для запуска неквантованных 80B моделей или множества мельче. Внутри 128 ГБ GDDR6 // 48 RISC-V ядер и 480 Tensix ядер // 256 ГБ DDR5 // CPU AMD EPYC 8124P // 10 Гбитные Ethernet порты // 4 TB NVMe SSD.

* Есть ещё рабочая станция TT-Quietbox Wormhole ($15 000) с жидким охлаждением на базе 4 Wormhole n300 c 96 ГБ VRAM и TT-LoudBox тоже с 96ГБ VRAM, но воздушным охлаждением. Для корпоративных клиентов имеется сервер Tenstorrent Galaxy с 32 Wormhole n150 (384 ГБ VRAM) и рэковая стойка из 6 таких (2304 ГБ VRAM).

Можно погонять в облаке на Koyeb. Пока доступны только Wormhole n300 (24 ГБ) или 4xn300 (96 ГБ), причём ограниченное количество времени бесплатно. Но команда вручную апрувит доступ к ним на 2 недели, так что придётся подождать.

Есть живое сравнение n150 и 4090 на ламе 3.1 от Стаса. n150 выдаёт 26 токенов/сек, а 4090 уже 58 ток/сек, но цена первой $999, а второй значительно выше $2000 у него на видео. Так что по соотношению цена/токен получается весьма неплохо. И это ещё нет публичных тестов n300 и Blackhole серии. Надо кстати ещё иметь ввиду, что драйвера пока есть только на Ubuntu.

Из нейронок на данный момент в основном поддерживаются разные языковые модели (DeepSeek, QwQ, лама, итд). Я спросил в их дискорде про генерацию видео и картинок: сказали в тестовом режиме поддерживают SD 3.5... Так себе вариант конечно. Хотя на недавней презе показали, что Tensеorrent может гонять Mochi, что уже хорошо. Посмотрим, что будет дальше. Список готовых к запуску моделей у них на портале.

Сайт
Гитхаб
Дискорд
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin

04/23/2025, 21:10

t.me/psy_eyes/2631

PS

Psy Eyes

5 590 subscribers

29

1.1 k

Там на Runpod завезли 5090. Цена $0,89/час.

Отличный вариант потестить видюхи, чтобы не ломать голову стоят ли они своих денег, и будут ли они тянуть ваши задачи. Собственно на ранподе я и сравнивал бок о бок 3090 и 4090 в генерации контента перед покупкой.

Runpod
Анонс
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin

04/22/2025, 22:25

t.me/psy_eyes/2629

PS

Psy Eyes

5 590 subscribers

28

1.0 k

04/22/2025, 22:25

t.me/psy_eyes/2630

PS

Psy Eyes

5 590 subscribers

10

1.1 k

twitter_1745345809068.mp4

Suno: добавили возможность загружать видео для замены дефолтной обложки.

Чтобы загрузить видео идём в библиотеку, через три точки открываем меню трека, наводим на Song Editor, выбираем Song Details. Появляется окно загрузки видео.

Требования:
* Вертикальный формат 9x16
* Как минимум 720px по высоте
* MP4, MOV
* Длина ограничена 10 секундами. Для шортсов/тиктоков пойдёт.

Также это означает, что у Suno начинает накапливаться датасет на основе видео. Быть может через некоторое время увидим от них возможность и генерить полноценные музыкальные клипы заодно. Или хотя бы загружать видео и генерить под него музыку.

Сайт
Твит
Про Suno V4
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin

04/22/2025, 21:52

t.me/psy_eyes/2628

PS

Psy Eyes

5 590 subscribers

29

1.0 k

twitter_1745344072761.mp4

Jawset: обновили до V 0.6 Postshot, софт в котором можно рендерить 3D объекты и сцены из фото/видео в виде сплатов. Релиз включает в себя некоторые фичи, мелькавшие в пре-релизах.

Что нового:
* Новый профиль тренировки Splat3 с высокой детализацией
* Фокусирование трени на конкретном регионе, чтобы ускорить процесс и сэкономить память
* Добавлено сглаживание (anti-aliasing)
* Новые инструменты для управления камерой и очистки сплатов
* Поддержка Nvidia 50-й серии
* Много мелких исправлений и улучшений.

Сайт
Анонс
Скачать
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin

04/22/2025, 21:10

t.me/psy_eyes/2627

PS

Psy Eyes

5 590 subscribers

87

5.9 k

435181032-0eb13415-f4d9-4aaf-bcd3-3031851109b9.mp4

04/21/2025, 21:46

t.me/psy_eyes/2626

PS

Psy Eyes

5 590 subscribers

86

5.9 k

435182659-dcd16603-5bf4-4786-8e4d-1ed23889d07a.mp4

04/21/2025, 21:46

t.me/psy_eyes/2625

PS

Psy Eyes

5 590 subscribers

88

5.6 k

435180484-f6f9f9a7-5d5f-433c-9d73-d8d593b7ad25.mp4

SkyWorks: выпустили в опенсорс версию V2 своего видеогенератора SkyReels. Писал о них ранее.

В тираж пошли две модели: большая на 14B параметров и мелкая на 1.3B. Выдают видео в разрешении 540p (544 х 960) или 720p (720 x 1280). Позже в опенсорс прибудет промежуточная модель на 5B параметров и модель для управления камерой. 1.3B и 5B могут генерить видео длиной до 97 кадров, а 14B до 121 кадра.

При этом фичей данного релиза является Infinite Length или Diffusion Forcing — возможность создавать видео любой длины. Работает как отдельная модель с приставкой DF, которая может брать на вход как текст, так и картинки. Пока только в 540p. Можно играться с количеством кадров идущих внахлест, но может упасть качество. Потенциально у нас может быть ещё один генератор длинных видосов как FramePack.

Под капотом используется мультимодальная языковая модель, которая которая описывает полное видео в общих чертах, а также остро-заточенные мелкие эксперты, описывающие кадры. Разрабы выпустили отдельно модель для аннотирования видео данных — SkyCaptioner-V1.

Для генерации видео с разрешением 540P с помощью модели 1.3B требуется около 15 ГБ VRAM, а для видео с тем же разрешением с помощью модели 14B около 52 ГБ VRAM.

Судя по 30 сек примерам с твиттера качество хорошее, и динамичность на длинной дистанции удерживается неплохо. Но при этом все репостят одни и те же видео, а на сайте не пишется генеришь ты в V2 или предыдущей модели.

Kijai уже веса наваял и воркфлоу на DF. Хотел погонять на винде на 4090, но выяснилось, что нужен triton. Поставил его, но всё равно не завелось. У кого линь скиньте в комментах, что у вас получилось.

Если появится онлайн демка пришью к посту.

Сайт
Гитхаб
Хаггинг
Comfy
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin

04/21/2025, 21:46

t.me/psy_eyes/2624

PS

Psy Eyes

5 590 subscribers

3

920

😱 Оказывается, ИИ не стоит доверять, вот почему?

1. Настроит продажи и проведет аналитику;
2. Сэкономит ресурсы и повысит доходность твоего бизнеса;
3. Очень точно и быстро обработает данные.

Если тебе всё это не нужно, пролистывай дальше или Присоединяйся к мероприятию «Нейроконцентрат. Весна 2025» 25.04.25 в

🔥 Для экспертов, предпринимателей и фрилансеров! Узнай, как нейросети:
— Сэкономят 2–3 часа в день на рутине
— Автоматизируют скучные задачи
— Привлекут клиентов без лишних затрат

🚀 Прокачай навыки с топ-спикерами и реальными кейсами и получи ответы на все свои вопросы.

🎁 Бонусы за регистрацию:
— Гайд: «С чего начать, если ИИ — тёмный лес»
— 10 убойных промптов для экономии времени
— Чек-лист: «ИИ для твоей профессии»
— Секретный сюрприз, который изменит твой взгляд на ИИ!

👇 Регистрируйся тут, чтобы забрать бонусы и ссылку на эфир!

Жду именно тебя❤️

Реклама. АНО "ЦРП" ИНН 1831143578 erid:2Vtzqvb5CFt

04/21/2025, 17:08

t.me/psy_eyes/2623

PS

Psy Eyes

5 590 subscribers

41

1.1 k

video-ezgif.com-video-cutter.mp4

Tripo: выпустили в опенсорс свой фреймворк для автоматизированного риггинга 3D объектов (люди, животные, вещи) — UniRig.

Система работает в два этапа:

* Предсказание скелета: трансформер, подобный GPT, авторегрессивно определяет топологически корректную структуру скелета, используя новую схему токенизации скелетного дерева (Skeleton Tree Tokenization).

* Предсказание весов и атрибутов: механизм перекрёстного внимания между костями и точками (Bone-Point Cross Attention) определяет веса привязки для каждой вершины, а также атрибуты костей (например, для физической симуляции) на основе предсказанного скелета и геометрии меша на входе.

На данный момент на хаггинге лежит модель для предсказания скелета. Остальное завезут позже вместе с моделью для предсказания атрибутов костей: определяет параметры, такие как жёсткость, для вторичных движений на основе физики.

Для работы нужно 8ГБ VRAM.

Сайт
Гитхаб
Хаггинг
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin

04/21/2025, 17:07

t.me/psy_eyes/2622

PS

Psy Eyes

5 590 subscribers

117

1.4 k

2025-04-1715-14-22-ezgif.com-crop-video.mp4

04/17/2025, 15:37

t.me/psy_eyes/2621

PS

Psy Eyes

5 590 subscribers

117

1.3 k

2025-04-17 18-42-49.mp4

FramePack: генерация видео от крутейшего lllyasviel, автора ControlNet, IC-Light, Forge, Fooocus, Omost, и других ништяков.

Метод предназначен для эффективного создания видео с использованием моделей диффузии. Он позволяет генерить видео с разрешением 480p при 30 FPS на ноутбуке с GPU объёмом памяти 6 ГБ, используя модель размером 13B параметров. При этом заявляется, что длительность видео может достигать 1000+ кадров.

FramePack упрощает тренировку видеомоделей, позволяя обучать их батчами по 64 на одном сервере с 8 видеокартами A100 или H100. Кроме того, он решает проблему «дрейфа» (drifting) в видео, обеспечивая стабильность качества на протяжении всего видео.

В проекте используется технология «предсказания следующего кадра» (next-frame prediction), где каждый кадр видео кодируется с разной степенью детализации в зависимости от его важности для предсказания следующего кадра. Это позволяет эффективно использовать GPU-память. Кроме того, FramePack применяет «двустороннюю» выборку (anti-drifting sampling), что предотвращает накопление ошибок и сохраняет качество видео на протяжении всей генерации. Метод также поддерживает различные схемы сжатия, что делает его гибким инструментом для создания видео из изображений.

Качество генерации высокое, хорошо сохраняется детализация и дорисовывание новых видов. На динамичных сценах могут съедаться детали или виден гостинг, но зависит от сцены.

В UI видео генерится кусками, которые потом сшиваются в общие кадры. На одной 4090 скорость генерации 2,5 сек/кадр (неоптимизированная) или 1,5 сек/кадр (teacache). На дефолтных настройках у меня нагрузило все 24 гига. На ноутах с 3070ti или 3060 (как у lllyasviel), скорость примерно в 4-8 раза медленнее.

Поддерживаются аттеншены всех мастей (PyTorch, xformers, flash-attn, sage-attention) для доп ускорения.

Промты слишком длинные писать не стоит. Примеры на гитхабе, и есть системный промт от lllyasviel по генерации промтов для контента.

Официальная 1-кликовая сборка уже приехала. Плюс ещё есть установка через Pinokio (тоже 1 клик).

Сайт
Гитхаб
Готовая сборка
Установка (Pinokio)
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin

04/17/2025, 15:37

t.me/psy_eyes/2620

PS

Psy Eyes

5 590 subscribers

16

843

Там кстати CEO Shopify ввёл для программеров обязательное умение пользоваться AI-инструментами для разработки. Также менеджеры не смогут нанимать больше людей, пока не обоснуют почему текущую задачу не может решить AI.

На этой волне вот вам интервью с профессиональным вайбкодером.

У него есть ещё видос, где Senior Engineer пробует вайбкодинг, но оно менее забавно.
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin

04/10/2025, 13:24

t.me/psy_eyes/2619

PS

Psy Eyes

5 590 subscribers

44

935

04/10/2025, 12:51

t.me/psy_eyes/2618

PS

Psy Eyes

5 590 subscribers

44

890

Google: запустил Firebase Studio — свой Cursor с AI-агентами и блекджеком Gemini, для быстрого создания и развертывания приложений.

Новый инструмент объединяет бэкенд Firebase с возможностями AI от Google в едином интерфейсе. Разработчики могут визуально проектировать веб, десктоп, и мобильные приложения, а также напрямую интегрировать модели Gemini и подключаться к сервисам Firebase (Auth, Firestore, Storage).

На старте есть 60 шаблонов, включая AI-агента для прототипирования, которому помимо промта можно кормить скриншоты, схемы, наброски на салфетке, итд и он поможет с разработкой UI, API, и AI-пайплайна.

Есть ещё агенты для миграции кодовой базы, тестирования, общения по документации, и другие. Например, можно в Firebase App Distribution задать агенту цель по тестированию мобильного приложения.

После закидывания промта Gemini попросит утвердить план действий и примется за разработку. В этом плане процесс разработки на Firebase схож с Replit.

На тесте создания музыкального плеера Replit показал себя лучше с одного промта. Так-то Gemini по своему огромному контексту и способностям на данный момент лучшая модель в коде, поэтому будет продолжать играться.

Сайт
Анонс
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin

04/10/2025, 12:51

t.me/psy_eyes/2616

PS

Psy Eyes

5 590 subscribers

44

938

04/10/2025, 12:51

t.me/psy_eyes/2617

PS

Psy Eyes

5 590 subscribers

3

841

Its allrite-22NV_opt.mp4

04/10/2025, 09:55

t.me/psy_eyes/2615

PS

Psy Eyes

5 590 subscribers

25

750

Дайджест:

📹 ВИДЕО + АРТ 🎨

Midjourney: запустили в альфа-режиме V7 генератора картинок. По качеству отзывы пока смешанные. Посмотрим, что будет на полном релизе. Также из новых фич: быстрый черновой режим за полцены, голосовое управление, и персонализация по умолчанию.

LTX: добавили в LTX Studio тренировку актёров для стабильной генерации лиц, пришили апскейлер и дистиллированную модель, а также генерацию по начальному кадру для переноса стиля как в Runway.

Runway: открыли API для своего видеогенератора Gen-4 Turbo.

Krea: Добавили на сайт рестайл видео как в Runway и LTX, и обновленный инструментарий для генерации 3D. Также запустили программу поддержки авторов.

Luma: ускорили API генератора картинок Photon (~10 сек) и Photon Flash (~5 сек). Плюс добавили шаблоны на движения камеры.

Remade: объединили редактирование картинки промтом с эффектами как в Pika/Wan.

SkyReels: выпустили SkyReels-A2, модель для композиции видео из нескольких референсных картинок как у Kling, Pika, Hailuo. Модель сделана на основе Wan. Уже завезли в Comfy и Kijai замутил сборку.

TTT-Video: генерация 1 минутных видосов на основе CogVideoX 5B.

UNO: смастерили UNO генератор картинок на основе Flux с композицией по нескольким рефам.

InstantX: сделали лору на Flux для генерации в стиле Ghibli. Или вот прям онлайн AI-приложение для применения стиля Гибли.

Генератор анаглифного 3D. Нужно две картинки - для левого и правого глаза.

Microsoft: сделали Quake 2 на основе Muse AI.

🎸 ЗВУК 🎸

JEN: генератор музыки на лицензионном контенте обновился до V 1.6. Качества звука немного стало лучше, но в целом пока также плохо.

Udio: выкатили фичу Styles для перекладывания стиля рем музыки на демку и сделали гайд по работе с ней.

Riffusion: обновили главную, чтобы было легче найти новую музыку.

Hailuo: обновили генератор речи Speech-02. Можно скармливать файлики и ссылки для получения аудио прочтением до 200к символов. Также повысилось качество звука, уменьшили глюки, запинания при переключении между языками в одном тексте, а голос стал лучше работать с басом и эмоциональностью. На русском пашет.

DigitalOcean: маленькая и шустрая модель Dolphin ASR для распознавания речи от одного из крупнейших облачных провайдеров Китая. Русский понимает.

Bytedance: выпустили MegaTTS3, маленький клонер речи на инглише и китайском.

ElevenLabs: замутили свой MCP сервер. Также представили возможность в непонравившихся генерациях речи самому произносить как должно быть, при этом стиль/акцент с генерации сохранится.

🤖 ЧАТЫ 🤖

OWUI: в V 0.6 опенсорсного UI для чата с языковыми моделями (LLM) добавили вызов внешних инструментов через OpenAPI (доступ к тысячам sdk, тулзов, итд), работу с MCP серверами, принудительный режим временных чатов для залогинившихся, улучшили дизайн UI, и ещё много чего.

Ollama: добавлена поддержка Mistral Small 3.1, улучшена работа Gemma 3.

LMStudio: обновили движки для поддержки ламы 4 и улучшения работы с Gemma 3.

Nvidia: выпустили cuML для ускорения в десятки раз scikit-learn алгоритмов без изменений в коде.

Jan: в этом UI для чата с ллм улучшили дизайн и работу с API.

Yandex: релизнули в опенсорс претрейн-версию YandexGPT5-Lite размером 8B и контекстом 32к.

Agentica: выпустили превью версию рассуждающей модели DeepCoder 14B, которая заточена на коде и хорошо себя показывает на бенчах. Контекст 24к.

Qwen: сделали демо для мультимодалки Qwen2.5 Omni 7B.

Microsoft: добавили агентный режим в VS Code, плюс поддержку MCP и Github MCP сервер. Также запустили свой поисковик Copilot Search, встроенный в Bing.

————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin

04/10/2025, 09:55

t.me/psy_eyes/2614

PS

Psy Eyes

5 590 subscribers

15

1.2 k

Хоспаде, ДА!

Третий сезон закончили на очень высокой ноте с Jibaro. И Тим Миллер (шоураннер / соавтор) говорил мол скорее всего это последний банкет. Очень неожиданно и приятно, что к столику продолжают приносить вкуснятину.

В кадрах мелькают кусочки по стилю близкие к Zima Blue. Будет отрадно увидеть этих авторов снова в деле.

https://www.youtube.com/watch?v=fnvke44Rps4

04/09/2025, 22:01

t.me/psy_eyes/2613

PS

Psy Eyes

5 590 subscribers

36

1.1 k

Gen-4_Turbo-ezgif.com-video-cutter.mp4

Runway: уже выкатили Turbo версию Gen-4.

Выдаёт 10 секундное видео за 30 сек.

С релиза базовой модели прошла уже неделя. Делитесь впечатлениями и тестами в комментах.

Твит
Сайт

04/07/2025, 21:46

t.me/psy_eyes/2612

PS

Psy Eyes

5 590 subscribers

34

1.1 k

Davinci Resolve: обновился в бете до версии V 20. Апдейт крупный, больше 100 фич.

Что нового:
* Отдельная панель для редактирования кейфреймов.
* UI для работы с вертикальными видео.
* Анимированные нейронкой субтитры, как в тиктоках или шортсах.
* IntelliScript — закидываешь видео в медиапул и выбираешь их. Тыкаешь создать таймлайн на основе сценария, написанного хоть в блокноте. Таймлайн сам собирается.
* Multicam SmartSwitch — AI собирает таймлайн из видосов, основываясь на том, кто сейчас говорит.
* Тренировка AI на своём голосе, для замены голоса с оригинального футажа на свой, и наоборот, например, чтобы твой голос звучал с акцентом с футажа. Работает не так чисто как у ElevenLabs, но оно в родном UI видеоредактора, а качество будет становиться лучше. Тем более если скормить больше данных.
* Voice Assistant — нет, не для вайбэдитинга... это нормализатор уровня голоса под целевую платформу.
* Расширение музыки как в Udio или Suno, только здесь ещё и можно на таймлайне задать до куда расширять.
* Есть ещё изолятор голоса, Music Remixer, и много чего ещё.

Нашёл ютуб видео с обзором, раз Davinci не заморачиваются.

Пока говорят много вылетов и косяков, но на то она и бета. Зато можно скачать бесплатно напрямую с сайта.

Анонс
Скачать бету
YouTube обзор

04/07/2025, 21:15

t.me/psy_eyes/2611

PS

Psy Eyes

5 590 subscribers

11

1.1 k

Недавно в твиттере наткнулся на самопальную 4090 с 48 ГБ VRAM, собранную братьями китайцами в полу-подвальных условиях. Видео с ней выложил покупатель, но кроме запуска GPU-Z и того факта, что корпус у него с ручкой, мол он постоянно перемещается, на видео смотреть нечего. Тестов он не предоставил. Нотариально-заверенный скриншот меня мало убеждает.

И тут мне в рекомендациях ютуба попадается видос от Мой Компьютер, где Михаил гоняет тоже 4090 с 48 ГБ VRAM, но уже от других китайцев, с отлаженным производственным пайплайном, и наглядно всё тестирует. В нейронках тестов мало, только LM Studio и Forge (думается Comfy он открыл и закрыл), но хоть так.

Обычная 4090 сейчас стоит 300к+, если найдёшь, а тут 375к через поставщика в РФ. Вот только ревёт она бешено, как турбина самолёта. Так что это только в серверную стойку.

PS: и нет, это не тот конкурент Nvidia, про которого я говорил.

YouTube

04/07/2025, 19:11

t.me/psy_eyes/2610

PS

Psy Eyes

5 590 subscribers

4

1.0 k

1000+ практиков нейросетей соберутся онлайн 19 апреля

«Уральский промпт» — второе мероприятие про нейросети от ребят, которые делают ивенты в сферах маркетинга, мероприятий и онлайн-образования более 10 лет. Цена более чем лояльная — начинается от 4 900 рублей.

💻 Конференция проходит онлайн — участвуйте из любой точки мира и получите доступ ко всем докладам и материалам

Среди тем докладов:
— как делать крутой нейроконтент без нервных срывов, завышенных ожиданий и бессмысленных затрат
— человек vs нейросеть: кто лучше понимает пользователей?
— как связать нейронки и Google Таблицы и автоматизировать рутинные задачи по щелчку.

А ещё будут доклады о том, как использовать нейросети в маркетинге, юридической практике и продуктовых исследованиях.

Хотите убедиться в качестве информации, которая звучит на конференциях? Смотрите три бесплатных доклада по автоматизации работы агентства, создании клипов и экономии 20 часов в неделю в работе маркетолога.

🔥 Забирайте бесплатные доклады в боте

04/07/2025, 17:36

t.me/psy_eyes/2609

PS

Psy Eyes

5 590 subscribers

41

1.2 k

ssstwitter.com_1743708616317.mp4

Pika: добавили мульти-фрейм генерацию.

Теперь можно делать видео из 5 кейфремов длинной до 25 сек.

Сайт
Твит

04/07/2025, 17:36

t.me/psy_eyes/2608

PS

Psy Eyes

5 590 subscribers

6

1.8 k

Сконвертировал часть Telegram подарков на TON и выставил на продажу на Fragment.

Владельцы получат скидку 10% при тренировке лоры в Wan. Опробуем гейтинг.

Минты:
1) Jingle Bells #37993 (SOLD)
2) Jingle Bells #38012 (SOLD)
3) Jingle Bells #38014 (SOLD)
4) Jingle Bells #38015 (SOLD)
5) Jingle Bells #38016 (SOLD)
6) Jingle Bells #38017 (SOLD)
7) Jingle Bells #38018 (SOLD)
8) Jingle Bells #38020 (SOLD)
9) Jingle Bells #38021 (SOLD)
10) Jingle Bells #38023 (SOLD)
11) Jingle Bells #38024 (SOLD)
12) Jingle Bells #38025 (SOLD)
13) Jingle Bells #38026 (SOLD)
14) Jingle Bells #38027 (SOLD)
15) Jingle Bells #38028 (SOLD)
16) Jingle Bells #38029 (SOLD)
17) Jingle Bells #38046 (SOLD)
18) Jingle Bells #38047 (SOLD)
19) Jingle Bells #38048 (SOLD)
20) Jingle Bells #9006 (SOLD)
21) Lunar Snake #93385 (SOLD)

Позже, когда порешаю с брендингом, выпущу свои коллекционки на TON. Это даст больше свободы к пришиванию функционала. И вторичку никто не отменял.

UPD: Всем спасибо, SOLD OUT.

04/03/2025, 23:16

t.me/psy_eyes/2607

PS

Psy Eyes

5 590 subscribers

3

1.1 k

ComfyUI_00398_-ezgif.com-webp-to-mp4-converter.mp4

У Nvidia появился конкурент на рынке видюх. Причём работает как в консьюмерском сегменте так и в серверном. И совместим со многими фичами Nvidia, хотя дешевле.

И это не AMD, Intel, или китайский .

На днях выложу пост.

————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin

04/03/2025, 19:25

t.me/psy_eyes/2606

PS

Psy Eyes

5 590 subscribers

67

1.2 k

ComfyUI_00576_-ezgif.com-webp-to-mp4-converter.mp4

04/03/2025, 18:42

t.me/psy_eyes/2604

PS

Psy Eyes

5 590 subscribers

67

1.2 k

ComfyUI_00072_.mp4

04/03/2025, 18:42

t.me/psy_eyes/2603

PS

Psy Eyes

5 590 subscribers

67

1.2 k

ComfyUI_00582_-ezgif.com-webp-to-mp4-converter.mp4

04/03/2025, 18:42

t.me/psy_eyes/2605

PS

Psy Eyes

5 590 subscribers

67

1.2 k

ComfyUI_00300_-ezgif.com-webp-to-mp4-converter.mp4

04/03/2025, 18:42

t.me/psy_eyes/2602

PS

Psy Eyes

5 590 subscribers

68

1.1 k

ComfyUI_00307_-ezgif.com-webp-to-mp4-converter.mp4

Натренировал Wan на своём компе по фоткам с собой.

Если вы хоть раз видели меня в реальности, то понимаете насколько это близко. Тут даже родные оценили. Хотя чего уж там, я сам впечатлён как сохраняются детали вроде сережек.

Главное иметь качественный датасет и выставить оптимальные параметры трени — остальное зачастую можно вытянуть промтом.

Тренировал и крупную 14B и мелкую 1.3B, чтобы понять какая в каком случае пригодится. В итоге большую часть времени генерю на 14B в 480p или 720p, ибо на ней благодаря высокой детализации и меньшему количеству артефактов проще получить то, что хочется. Но 1.3B очень шустрая, для черновой анимации подойдёт, хотя потенциал есть и для большего.

Что по скоростям:

На одном и том же датасете из 39 фоток 1.3B тренируется 28 минут, а 14B больше суток на 4090. На видео с собой чуть позже натренирую. Будет дольше, но должно улучшить понимание динамики и детальность недостающих углов обзора. Хотя мне нравится и по фоткам результат.

Генерация, используя txt-2-vid 14B модель на 4090:
* 2 сек 720p 16fps 30 шагов ~16 мин
* 2 сек 720p 24fps 30 шагов ~28 мин
* 2 сек 480p 16fps 30 шагов ~4 мин
* 2 сек 480p 24fps 30 шагов ~6 мин

Генерация, используя txt-2-vid 1.3B модель на 4090:
* 2 сек 720p 16fps 30 шагов ~ 3 мин
* 2 сек 720p 24fps 30 шагов ~ 5 мин
* 2 сек 480p 16fps 30 шагов ~30 сек
* 2 сек 480p 24fps 30 шагов ~60 сек

Веды говорят, что на облачных H100 с доп плюшками можно получить меньше 2 мин на ген img-2-vid 480p. Что хорошо — натренированную txt-2-vid лору можно гонять в img-2-vid.

На сайте Wan скорость с одной стороны быстрее, стартует от 3 минут. Но зачастую, из-за большого потока пользователей, она в итоге улетает вверх за 20-40 мин. Порой в конце вообще выходит с ошибкой, мол зайдите позже.

Также на сайте Wan модель отказалась генерить видос сигарой и прыжок с самолёта, как и более безобидные вещи. А вот локально без проблем — делай что хочешь.

Я обычно на TeaCache, который помогает ускорить генерацию в 2-4 раза, делаю разные черновые варианты, а потом понравившиеся генерю начисто, в процессе меняя параметры и промт если нужно.

Продакшены и агентства — теперь могут попросить чекпоинт актёра или блогера и примерить его в сцену, не гадая в голове как это может выглядеть, а где применимо использовать и напрямую вместо реальных съёмок. Плюсом будет наличие чекпоинта с голосом для липсинка. Можно организовать доступ к каталогу талантов по API или лицензии / контракту.

Бренды — могут сделать лору своего продукта и, используя лору блогера, сгенерить рекламное видео не посылая образцы, и не организуя съёмки / трансфер (особенно когда это нельзя сделать по гео). Для примера, я натренировал кратко лору на Pringles и сцепил её со своей лорой, чтобы сделать совместную сцену.

Если что-то нужно поменять во внешности или сцене, зачастую достаточно детального промта. Альтернативно, если есть конкретное видение, можно переодеть человека или заменить его целиком с помощью flow edit, а также лор на контроль, итд. Мультяшную версию персоны, тем легче получить, чем легче считываются выделяющие характеристики.

Да и просто по-человечески интересно посмотреть на себя со стороны с другой причёской, одеждой, телосложением, иным образом поведения, или в качестве конкретного персонажа. Есть в этом что-то терапевтическое.

🔥 Принимаю заявки на тренировку ваших цифровых двойников или персонажей. Пишите — @AndreyBezryadin

04/03/2025, 18:42

t.me/psy_eyes/2601

PS

Psy Eyes

5 590 subscribers

24

969

twitter_1743440028848.mp4

Babylon.js: до версии V 8 обновился бесплатный опенсорсный фреймворк для разработки 3D-графики, игр, интерактивных сцен и визуализаций в вебе.

Что нового:

* Поддержка IBL теней для реалистичного затенения и областных источников света (Area Lights).
* Легковесный просмотрщик 3D объектов для интеграции в сайт/веб-апу.
* Node Render Graph — новая система для управления рендерингом, упрощает настройку сложных эффектов.
* Поддержка WebGPU Compute Shaders для ускорения вычислений на GPU и комплексных симуляций.
* и не только.

Анонс
Сайт
Гитхаб

03/31/2025, 21:07

t.me/psy_eyes/2600

PS

Psy Eyes

5 590 subscribers

43

1.0 k

twitter_1743436434266.mp4

Кстати в Recraft тоже можно делать мокапы.

А ещё они добавили стили на векторное лого. Чтобы воспользоваться:

* Нажимаем кнопку Recraft V3 Raw (та, что с красной пандой над промтом)
* Прокручиваем вниз до стилей на векторный логотип
* Выбираем стиль, вписываем промт и жмём кнопку Recraft.

Сайт Recraft
Твит

03/31/2025, 20:08

t.me/psy_eyes/2598

PS

Psy Eyes

5 590 subscribers

43

1.0 k

twitter_1743436489460.mp4

03/31/2025, 20:08

t.me/psy_eyes/2599

PS

Psy Eyes

5 590 subscribers

77

1.3 k

twitter_1743432089895.mp4

03/31/2025, 19:02

t.me/psy_eyes/2597

PS

Psy Eyes

5 590 subscribers

77

1.3 k

twitter_1743431888737.mp4

Freepik: добавили на сайт генератор мокапов. Можно вписывать брендинг как в сгенерированную текстом сцену, так и на объект на картинке вроде одежды или мерча. Если что, содержимое сцены тоже можно отредактировать.

Packshot: другой генератор мокапов. Добавили Design Faces (текстуры) в инспектор модели. Текстуру можно обрезать, чтобы накладывалась нужная область. Проект всё ещё в приватной бете, есть вейтлист.

Сайт Freepik
Сайт Packshot

03/31/2025, 19:02

t.me/psy_eyes/2596

PS

Psy Eyes

5 590 subscribers

324

12 k

Gen4.mp4

Runway: выкатили Gen-4.

Обещают генерацию стабильных миров с консистентными персонажами.

Управление персонажами как и контроль сцены станет послушнее. Можно делать съёмку с любого ракурса. Редактирование местами напоминает работу со слоями в фотошопе.

Можно будет сфоткать объект из реального мира и закинуть его в модель, чтобы делать с ним видео.

Качество и эстетичность стали ещё кинематографичнее. А физика взаимодействия объектов реалистичнее.

На сайте пока нет инфы по кредитам за генерации. Говорят уже доступно платным подписчикам. У кого есть доступ дропайте тесты в комменты.

Анонс
Сайт

03/31/2025, 18:05

t.me/psy_eyes/2595

PS

Psy Eyes

5 590 subscribers

15

1.3 k

ываывафывфыв.mp4

"Нейросети отнимают у людей работу"

По-моему, они их спасают.

03/30/2025, 21:30

t.me/psy_eyes/2594

PS

Psy Eyes

5 590 subscribers

46

1.1 k

Дайджест:

📹 ВИДЕО + АРТ 🎨

Comfy: скоро Comfy-Manager въедет напрямую в комфи. Давно пора!

Wan: появилась Fun-1.3B-InP версия видеогенератора — она гибче к разным разрешениям кадра и может работать с картинками (базовая i2v модель только 14B). И от этой же команды есть лора на контроль 1.3B. Уже подрублено к Kijai в FP8 и в Wan2GP (low vram) версию, которая теперь даёт генерить видео от 3-5 ГБ VRAM. Также в неё добавлена поддержка CFG-Zero для t2v 14B модели.

Hi3DGen: генерация 3D по картинкам, мультивью, и нормалям. Неплохой результат выдаёт.

InfiniteYou: фреймфорк для персонализации по фото, обзавёлся Comfy.

Flora: добавили стили для смешивания рефов.

AccVideo: новый метод дистилляции для ускорения видеогенерации. Говорят в 8,5 раз быстрее базового Хуньяня при том же качестве.

SuperSplat: обновили экспорт в HTML Viewer.

LeX-Art: модель для генерации качественного текста на картинках.

Tripo: выложили две модели для генерации 3D: TripoSG для получения меша из картинки, и TripoSF с фокусом на обработке открытых пространств и областей прилегающих к поверхностям.

LayerAnimate: модель для анимации с разбивкой видео по слоям. Есть контроль скетчем и траекторией.

OpenAI: дали возможность бесплатным пользователям генерить пару картинок в день. Обозначен лимит 3 изображения в день.

ZLUDA: в CUDA для видюх AMD добавлены CUDA Graph.

Vibe Draw: генерация 3D по скетчам на основе tldraw (спс @JohnDoe171).

Nvidia: выпустили для RTX видюх своего ассистента G-Assist на основе ламы 3 8B. Потестил, толку от него пока мало, может настройками экрана управлять, RGB подсветку вкл/выкл, видюху тюнить.

Luma: теперь версии контента группируются в ветку.

Pika: выкатили фичу для генерации селфи с молодым собой.

Kling: обновили сайт и добавили возможность генерить аудио под видосы.

🎸 ЗВУК 🎸

Riffusion: добавили Vibes, возможность использовать трек (загруженный/сгенерённый) как реф для создания трека в подобном стиле. На вход берется до 10 сек от основы и вместе можно мешать до 3 вайбов.

Mureka: музыкальный генератор, в котором можно писать промт на русском. Много фич, но по качеству пока простовато. 2 песни бесплатно.

Orpheus-cpp: порт llama.cpp генератора речи (TTS) Orpheus для реалтайм обработки звука без GPU (на CPU).

🤖 ЧАТЫ 🤖

LMStudio: добавлена поддержка мульти-GPU.

Google: выкатили Gemini 2.5 Pro, который на бенчах наравне с Claude 3.7, бьёт o3 в рассуждениях, имеет большее контекстное окно, и её можно погонять бесплатно в AI Studio.

DeepSeek: релизнули DeepSeek V3-0324, версию с улучшениями в рассуждениях, фронтэнде, вызове функций, итд.

DeepSite: дипсик заточенный на сборку сайтов и веб-приложений. Работает годно.

OpenAI: улучшили GPT-4o. Модель стала лучше следовать инструкциям и решать более комплексные задачи. Пока для платных пользователей.

Qwen: выпустили Qwen2.5-Omni 7B, мультимодалку сочетающую в себе рассуждалку, реалтайм голосовой/видео чат, берет на вход текст, картинки, видео, аудио. И представили QVQ-Max, рассуждающую модель с поддержкой визуала на вход, а не только текста.

Bytedance: представили DAPO, опенсорсную RL систему для создания масштабных LLM (языковых моделей).

Replit: создатели AI-разработчика открыли доступ бесплатным пользователям и выпустили курс по вайбкодингу.

Anthropic: выпустили исследование про отслеживание мыслительного процесса LLM. Также теперь можно быстро добавлять в память нужные вещи через # в .md файле.

03/30/2025, 21:18

t.me/psy_eyes/2593

PS

Psy Eyes

5 590 subscribers

32

919

twitter_1743184145526.mp4

03/28/2025, 20:58

t.me/psy_eyes/2590

PS

Psy Eyes

5 590 subscribers

32

921

twitter_1743184266447.mp4

03/28/2025, 20:58

t.me/psy_eyes/2591

PS

Psy Eyes

5 590 subscribers

32

921

twitter_1743184259957.mp4

03/28/2025, 20:58

t.me/psy_eyes/2592

PS

Psy Eyes

5 590 subscribers

32

936

twitter_1743184146429.mp4

KIRI: выпустили V3 версию плагина для работы со сплатами в блендоре.

Что нового:
* Рисование и использование текстур изображений для редактирования цвета
* Конвертация между сплатом и 3D мешем
* Трансформации и правки можно экспортировать
* другие улучшения

На втором видео с помощью плагина добавили сплат в реальный футаж.

Гитхаб
Сайт
Твит

03/28/2025, 20:58

t.me/psy_eyes/2589

PS

Psy Eyes

5 590 subscribers

31

859

cfg-zero_pr_page-ezgif.com-crop-video.mp4

Исследователи выяснили, что на ранних этапах обучения, когда оценка flow неточна, CFG направляет семплы по неправильным траекториям.

Основываясь на этом наблюдении, представлен CFG-Zero: улучшенный метод генерации картинок/видео вместо обычного CFG.

Работает без доп тренировки с генерацией видео (Wan) и изображений (Flux, SD, Lumina).

Уже вшит в Comfy ноды Kijai, а также WanGP (low vram версия).

Демо
Сайт
Гитхаб

03/28/2025, 20:04

t.me/psy_eyes/2588

PS

Psy Eyes

5 590 subscribers

63

1.1 k

twitter_1743168339980.mp4

03/28/2025, 17:06

t.me/psy_eyes/2587

PS

Psy Eyes

5 590 subscribers

63

1.1 k

twitter_1743168282810.mp4

03/28/2025, 17:06

t.me/psy_eyes/2586

PS

Psy Eyes

5 590 subscribers

67

1.0 k

twitter_1743168332279.mp4

CSM: недавно пришили PBR к своему генератору 3D. А сейчас показывают, что будет если совместить генерацию картинок в ChatGPT с их системой создания 3D модели по частям.

Рабочий процесс:

* Задайте GPT-4o запрос на получение изображения (например, 3D-ассет стилизованного персонажа со всеми частями, разложенными на листе, для преобразования через img-2-3D)

* В CSM используя инструмент Parts & Asset Packs, сгенерите части персонажа в 3D, и соберите в Blender.

Можно использовать и для виртуальной фотографии, собрав в Блендоре композицию c нужным углом камеры, и скормив ChatGPT изображение с превиза + оригинальные картинки использовавшиеся для получения 3D моделей.

Рекомендации CSM:
- При написании промта для GPT-4o объединяйте 3D-рендер и оригинальные изображения в коллаж, особенно для сложных сцен.

- Использование PBR 3D-ассетов вместе с трассировкой лучей в Blender, прежде чем скармливать их GPT-4o на ремикс, помогает добиться лучших результатов.

- Экспериментируйте с промтами. Например: Используй изображения слева в качестве рефа. Сделай ремикс рендера справа с использованием рефа на фотореалистичном фоне. ААА продакшн".

Как оно в деле можно почитать тут.

Твит
Сайт

03/28/2025, 17:06

t.me/psy_eyes/2585

PS

Psy Eyes

5 590 subscribers

8

954

TextAdventure.mp4

03/27/2025, 22:14

t.me/psy_eyes/2584

PS

Psy Eyes

5 590 subscribers

8

940

Braid.mp4

Ну и ещё на тему игр.

В прошлом году одна из моих любимых игр Braid обзавелась юбилейным релизом, и помимо обновленной графики к ней шли комментарии про её создание от автора Джонатана Блоу и других причастных.

Также на ютуб была загружена серия интервью. И вот на ней Джонатан рассказал, что на создание игры его в том числе вдохновила другая игра — Trinity 1986 года.

Это текстовая адвенчура под DOS, которую ты проходишь в формате чата, описывая действия персонажа или окружения. Нынче такие игры спокойно запускаются прямо в вебе. В детстве я такое не застал, а сейчас попробовал и, не зная как это работает, какой промт что писать, можно так в начале и застрять.

Я тогда в прошлом году сразу обратился к релевантной на тот момент ламе 3, попросил перейти в режим текстовой адвенчуры и сыграть со мной в неё. Она моментально отреагировала в нужном ключе. Даже варианты ответов предложила, стараясь сразу пойти тебе на встречу.

Получается весь этот жанр игр по умолчанию теперь под капотом ллмок. Но в отличие от предыдущей итерации AI-версии легко переделать промтом, как и делиться ими.

Braid в Steam
Плейлист с интервью по Braid
Документалка про создание текстовой адвенчуры

03/27/2025, 22:14

t.me/psy_eyes/2583

PS

Psy Eyes

5 590 subscribers

23

910

ghfgh.mp4

Листать твиттер сейчас Гиблое дело, ну и коль речь зашла про игры.

Нынче на связке вайбкодинга и MCP народ массово генерит всяко-разное: как точечные инструменты / контент под свои задачи, так и игры.

Один чувак сделал такую и для монетизации нашпиговал её адовым количеством рекламы + платный контент. Фокус удался, но это на хайпе в моменте. Как насчёт долгосрока?

Те, кто до этого не сталкивался с программированием могут загнать ллм в версию кода, где она будет чинить одно и ломать другое, а кредиты жечь на повышение. Про заказчиков тут говорить не приходится.

Ок, собрали игру, что дальше? Публикация в стим стоит $100. Про itch.io массовая аудитория не знает. Миниапки в телеге это хорошо: тут есть аудитория, игры не нужно устанавливать, но они в начале своего развития и есть технические ограничения.

Было бы годно AI тусовку монетизировать по ссылке на сайт из твиттора, а в будущем вероятно прямо в нём.

Тут как раз пригодится технология WebGPU для рендеринга игр/софта видюхой прямо в браузере. В прошлом году мне попался на глаза Project Prismatic, позиционирующийся как первый крупный FPS-шутер на WebGPU. Выяснилось, что они релизнулись на сайте для браузерных игр CrazyGames.

Я решил погонять её. При запуске скачивается 144 Мб, а жрёт 2 ГБ VRAM. Сама игра издалека похожа на первую Halo начала 2000-х (которую я люблю). Визуально и по озвучке это всё ощущается больше как эксперимент, чем коммерческий продукт. Особенно, учитывая, что fps до фризов падает местами на 4090. Но для игры без установки запускающейся во вкладке браузера, вполне себе.

И стоило мне пройти уровень как появилось окно, мол заплати $5 и разблокируй новый контент. А там дальше ещё уровни, которые пока за Soon глубоко до релиза. В каком качестве и готовы ли они, я не стал разбираться.

Но с учётом количества навыков и фокуса на краткосрочных целях у большинства вайбкодеров, это пример вектора, куда MCP-MVP толпа может навалиться.

Кстати 2 года назад писал про опенсорсный AI Game Jam под патронажем Hugging Face. И тогда все релизы публиковались на Itch, где их можно было потестить. Я помню, что все игры тогда были очень короткими, а процесс похождения по ним ощущался как стриминг. Тем не менее, у многих были интересные идеи, и было видно что у руля народ с опытом в геймдеве.

Так что начинающим вайбкодеам стоит обзавестись пониманием что происходит под капотом, дробить задачи на подзадачи представляя картину в целом, и перенимать опыт AI — пусть знания из облака текут локально в вашу голову.

Игра Project Prismatic

03/27/2025, 20:50

t.me/psy_eyes/2582

PS

Psy Eyes

5 590 subscribers

9

923

03/27/2025, 17:17

t.me/psy_eyes/2581

PS

Psy Eyes

5 590 subscribers

9

900

03/27/2025, 17:17

t.me/psy_eyes/2578

PS

Psy Eyes

5 590 subscribers

9

927

03/27/2025, 17:17

t.me/psy_eyes/2580

PS

Psy Eyes

5 590 subscribers

9

923

03/27/2025, 17:17

t.me/psy_eyes/2579

PS

Psy Eyes

5 590 subscribers

9

846

Занятное, lllyasviel предлагает добавлять к артам подписи, которые будут запрещать мультимодалке обрабатывать контент, чтобы он не пошёл под капот AI-Шоггота.

Мы тут были в 22-23 году, когда этот вопрос поднимался артистами с претензиями к Stability, Midjourney, OpenAI, итд. Тогда также были предложения вставлять подобные подписи к артам, на сайты, в метатеги.

Но толку это не дало: Stability выиграли все суды; недавно в Китае суд встал на сторону автора арта сгенерированного в MJ; а невидимые водяные знаки легко смываются. Единственно Adobe со своей мета маркировкой C2PA продвинулся, но это опять же обходится.

Тут либо контент/датасет изначально не должен попадать в сеть (быть за пейволом, как показывает практика, не поможет), либо наоборот изначально подразумевать, что контент в любом случае попадёт под капот нейронке и выстраивать монетизацию иначе. Или как-то его по кусочкам стримить и шифровать для мультимодалки, при этом так чтобы для пользователя это выглядело как обычный контент.

И не удивлюсь если корпораты в борьбе за власть будут использовать data poisoning схемы, чтобы вживлять в публикуемый пользователями контент мету, от которой обработавшая её нейронка начнёт глупеть. И конкуренты жгли деньги и отставали по релизам.

Здесь можно провести параллель со стимом и пиратскими играми: делаешь доступ удобным, а цену разумной, и люди к тебе тянутся. Корпоратам жечь компьют, чтобы дешифровать/отчистить/собрать контент или датасет из открытых источников должно быть менее выгодно, чем просто в белую обратиться по API артиста к нужному датасету. Чтобы оно работало глобально и автоматизированно можно оплату проводить по смарт контрактам.

Твит

03/27/2025, 17:17

t.me/psy_eyes/2577

PS

Psy Eyes

5 590 subscribers

14

998

2025-03-27 14-52-41.mp4

03/27/2025, 15:07

t.me/psy_eyes/2576

PS

Psy Eyes

5 590 subscribers

14

996

sdfsdffgdfg.mp4

Редактирование/генерация картинок промтом через Gemini навела суеты, и конкуренты начали выкатывать такие же фичи.

OpenAI: добавили в ChatGPT генерацию изображений нативно через 4o, а не DALEE 3.

Выдаёт отличное качество изображения, но может съедать детали или перегенерить сцену целиком вместо целевого объекта. Отлично слушается промта (в том числе на русском), вписывает надписи, и работает со стилизацией. На удивление лёгкое отношение к цензуре.

На данный момент раскатано для владельцев подписки Plus выше.

Grok: редактирование картинок промтом добавили несколько дней спустя после Gemini. В плане качества и удерживания стиля тоже хорошо делает, как и работает с надписями на русском, но всё же ChatGPT генерит лучше. К цензуре более свободное отношение, чем у Gemini.

Работает бесплатно с российским IP.

Анонс ChatGPT
ChatGPT
Grok

03/27/2025, 15:07

t.me/psy_eyes/2575

PS

Psy Eyes

5 590 subscribers

47

1.2 k

twitter_1743012063907 (1).mp4

Kling: обновили Elements, создание видео по нескольким объектам на рефах.

Что нового:
* Ускорение генерации
* Улучшено следование промту
* Повысилось качество изображения

Также генерация через кейфреймы теперь работает с расширением видео.

Сайт
Твит

03/26/2025, 21:18

t.me/psy_eyes/2574

PS

Psy Eyes

5 590 subscribers

23

1.2 k

twitter_1743005173089.mp4

Stepfun: дали доступ на сайте к своему видеогенератору Step-Video-TI2V. Переводите в браузере страницу на инглиш.

Модель может принимать на вход одновременно и картинку разных размеров и текст на английском или китайском. Выдаёт максимум 102 кадра за 3+ минуты. Text-2-video генерит 960х540 при 25fps. Лучше всего себя показывает в аниме стиле.

Есть рульки контроля камеры, только они не совсем интуитивные. И стандартные: шаблоны стиля + улучшение промта.

Эту же модель они недавно выложили в опенсорс, но она слишком жирная, чтобы её локально запекать.

По российском симке заходит. И что интересно код приходит в телеге через недавно запущенный Telegram Gateway. Значит тема работает, и китайские братья о ней знают.

Сайт
Хаггинг

03/26/2025, 20:24

t.me/psy_eyes/2573

PS

Psy Eyes

5 590 subscribers

31

1.2 k

twitter_1743005541944.mp4

Ideogram: выпустили генератор картинок Ideogram 3.

Модель хорошо показывает себя в генерации брендированного контента, дизайна, и креативных сцен. Картинки выходят детальные и эстетичные.

Потестил, и по сравнению с V1 и 2 чувствуется, что модель по умолчанию тянется к реализму, что хорошо сказывается на композиции.

Но дают только 2 генерации на бесплатном тарифе, и они закончились быстрее, чем я успел сложить более полное впечатление.

Тем не менее, с моего последнего посещения вижу, что сайт оброс множеством рулек для контроля, что хорошо. Тут тебе и работа по рефу, и код стиля как sref в Midjourney, и задание цветовой палитры. Даже холст (Canvas) свой есть.

Определённо камень в огород Recraft. Подписка $20/мес.

Сайт
Анонс

03/26/2025, 19:46

t.me/psy_eyes/2572

PS

Psy Eyes

5 590 subscribers

18

1.1 k

AI Илона Маска — Grok — теперь официально в Telegram. Я писал про него здесь.

Доступен бесплатно в боте @GrokAI владельцам премиумов.

Лимиты не указываются. Сам он говорит, что ограничен только 4096 символами в посте телеги.

Grok
Твит

03/26/2025, 15:42

t.me/psy_eyes/2571

PS

Psy Eyes

5 590 subscribers

8

1.1 k

kxsr.mp4

Крутые подписчики на линии!

Я недавно тестил Wan, пытаясь заставить ветром пошевелить мех котэ. Но прогиб был не столь силён, чтобы быть засчитанным.

Сейчас же всесильный @p0lygon таки поднял этот молот Тора, и дальше слово автору:

Регулировка силы ветра лорой (нано-Ван 1.3B)

В промпте нет слов о мехе, типа - "мех колышется на ветру", но при увеличение веса лоры, мех начинает отрабатывать ветер.
(Начало без лоры. в конце вес 4, с перебором)

Мораль: каких-то знаний физики вообще может не быть, но их можно принести лорой.

03/25/2025, 23:15

t.me/psy_eyes/2570

PS

Psy Eyes

5 590 subscribers

29

1.1 k

twitter_1742923116728.mp4

ElevenLabs: организовали автоматическое распознавание речи говорящего и переключение на нужный язык.

Показали как это работает с их AI-агентом, который быстро переключался между английским, немецким, китайским, и итальянским.

Самим можно попробовать на странице с их доками. На русском пашет, я потестил.

Демо
Сайт
Твит

03/25/2025, 20:31

t.me/psy_eyes/2569

PS

Psy Eyes

5 590 subscribers

15

1.1 k

reve.mp4

03/25/2025, 19:43

t.me/psy_eyes/2568

PS

Psy Eyes

5 590 subscribers

15

1.1 k

вапывп.mp4

Reve: новый генератор изображений, забравшийся в лидербор txt-2-img моделей. При этом проект в превью режиме.

Как у Midjourney фокус на эстетичности. Промту следует хорошо, и годно работает с надписями.

На черрипиках качество отличное, но на моих дефолтных промтах с фантастическим сюжетом сработало не айс. И это с улучшайзером промта, без него лучше вообще не запускать. Кроме варианта когда у вас самого есть детальный промт. Пока что от Flux у меня больше впечатлений.

На сайте только базовые элементы контроля в виде: выбора формата кадра, количества картинок, вкл/выкл улучшайзера, и сида.

Детективное расследование кто стоит за проектом здесь.

Дают 20 бесплатных генераций.

Сайт

03/25/2025, 19:43

t.me/psy_eyes/2567

PS

Psy Eyes

5 590 subscribers

20

1.1 k

dsfgdasfh.mp4

Ну, и пока мы недалеко отошли от LTX.

Они выпустили LTX Video Trainer, фреймворк для трени лор на основе их моделей, или файнтюна на своём датасете.

В набор входит инструментарий для предобработки датасета, подписи видео, разделения сцен, итд.

Уже выпустили свои версии Pika эффектов Squish и Cakeify, чтобы Wan нескучно было.

Учитывая скорость генерации LTXV, не сильную требовательность к компьюту, а также лёгкое отношение людей к качеству изображения на мемах, как раз для мемогенераторов хорошо подойдёт.

Гитхаб
Хаггинг

03/25/2025, 16:42

t.me/psy_eyes/2566

PS

Psy Eyes

5 590 subscribers

9

1.0 k

LTXV095.mp4

У LTX Studio интересно сделан контроль камеры на сайте. Есть шаблоны, для быстрого получения целевого движения и превью.

Жаль, что формат кадра скачет и качество пока не айс.

Но это только пока.

Сайт

03/25/2025, 15:32

t.me/psy_eyes/2565

PS

Psy Eyes

5 590 subscribers

11

1.1 k

1000.1741614306241.0.mp4

03/25/2025, 13:29

t.me/psy_eyes/2563

PS

Psy Eyes

5 590 subscribers

11

1.1 k

1000.1741610140209.0 (1).mp4

Нравится как Kling крутит камеру. Сам понимает как достроить сцену, добавляет детали.

Да на фоне видны артефакты, вероятно там где он сшивает куски. Но все эти видосы получены с первого раза. Реф картинка в конце.

Кстати есть ощущение, что если его попросить перевести фокус на фон и сделать его детальнее, можно получить неплохую карту глубины.

Сайт

03/25/2025, 13:29

t.me/psy_eyes/2561

PS

Psy Eyes

5 590 subscribers

11

1.1 k

03/25/2025, 13:29

t.me/psy_eyes/2564

PS

Psy Eyes

5 590 subscribers

11

1.1 k

1000.1741613710395.0.mp4

03/25/2025, 13:29

t.me/psy_eyes/2562

PS

Psy Eyes

5 590 subscribers

80

1.3 k

2025-03-24 21-36-46.mp4

Riffusion: развивается и быть может даже не даст заскучать Suno и Udio.

Что нового:
* Загрузка своего трека для работы по нему
* Swap Sound — меняем инструментальные партии, не трогая вокал.
* Swap Vocal — меняем вокал, оставляя инструменты.
* Get Stems — делим композицию на стемы и скачиваем архивом отдельные дорожки.
* Trim — обрезаем, оставляя нужный кусок, и от него танцуем
* Ghostwriter — AI пишет тексты песен

Есть расширенные настройки звука для экспериментов с weirdness, а также работа по нескольким промтам и ползунками их силы (20% дабстепа / 30% эмо-кора / 50% Надежды Кадышевой — смешать и отбежать).

Ещё из интересного у них обозначена персонализация — чем больше ты используешь платформу, тем лучше модель адаптируется генерить звучание под тебя. У Suno пока персонализация только относительно прослушивания заявлена. Так что у Riffusion есть карты в рукаве.

И, кстати, на скачанных стемах голос изолирует вполне себе. Если нужно будет отделить вокал от инструментала — можно быстренько закинуть и выцепить.

Плейлист с примером замененных элементов.

Сайт
Твит

03/24/2025, 22:09

t.me/psy_eyes/2560

PS

Psy Eyes

5 590 subscribers

30

1.1 k

twitter_1742827230499 (1).mp4

Meshy: в превью режиме запустили V5 своего генератора 3D.

В этой версии улучшена проработка текстур и освещения. А также повысилось качество геометрии.

В честь запуска дают 50% скидку на подписку, промокод MESHY5.

Сайт

03/24/2025, 20:41

t.me/psy_eyes/2559

PS

Psy Eyes

5 590 subscribers

29

1.1 k

twitter_1742823294694.mp4

03/24/2025, 16:55

t.me/psy_eyes/2558

PS

Psy Eyes

5 590 subscribers

29

1.1 k

twitter_1742823380896.mp4

Synclabs: тизерят V2 своей липсинк модели.

Дубляж на разные языки идёт с сохранением голоса актёра. И работает даже, когда в кадре несколько говорящих.

Чтобы ввалиться в бету нужно написать им в личку в твиттере.

Твит

03/24/2025, 16:55

t.me/psy_eyes/2557

PS

Psy Eyes

5 590 subscribers

67

1.2 k

03/24/2025, 15:51

t.me/psy_eyes/2555

PS

Psy Eyes

5 590 subscribers

67

1.2 k

Topaz: представили софт для апскейла изображений Gigapixel 8.3.

Что нового:

* Модель Redefine для креативного апскейла с указанием промтом что нужно изменить, или в какой стиль/сеттинг всё перенести. Может дать прокашляться Magnific.

* Модель Recover для восстановления старых фото. Лучше всего работает с картинками до 1000х. Также пишут, что сканы и фото принтов лучше даунскейлить перед апскейлом, чтобы модель могла понять родное разрешение у как картинку улучшить.

* Модель Face Recovery Gen 2 с фокусом на восстановлении лиц. Улучшена проработка глаз, зубов, а также креативное восстановление в местах с недостатком данных вроде лиц вдалеке. Также на их бенчах модель значительно быстрее SDXL и Fux, если её гонять на L40S.

Апкейлить можно как локально, так и с обработкой в облаке.

Сайт
Твит

03/24/2025, 15:51

t.me/psy_eyes/2553

PS

Psy Eyes

5 590 subscribers

67

1.2 k

03/24/2025, 15:51

t.me/psy_eyes/2554

PS

Psy Eyes

5 590 subscribers

68

1.2 k

03/24/2025, 15:51

t.me/psy_eyes/2556

PS

Psy Eyes

5 590 subscribers

7

838

Сможет ли ИИ заменить 80% задач предпринимателя?

Да! И на реалити вы это увидите. Старт 25 марта!

Если вы эксперт, предприниматель или фрилансер. Если вы уже пробовали, но не добились успеха. Если думаете, что ИИ это сложно, тогда мы идём к вам!

В течение 6 дней на реалити ИИ берёт новую задачу: пишет посты, ведёт переговоры, считает деньги и не только.

Пошаговая инструкция по внедрению ИИ в ваш бизнес

Почему это сработает?

🗣 Никакой воды (только действия и результаты)
🗣 Вы-режиссёр (от вашего голоса зависит, что ИИ сделает уже завтра)
🗣 Всё можно легко повторить (берёте инструменты, схемы и применяете)

Вы с нами? Присоединяйтесь!

Для каждого участника бонус: Конспект ИИ инструментов, которые будут использованы в реалити. Приходите и забирайте первыми

💬 Присоединиться 💬

Реклама. АНО "ЦРП" ИНН 1831143578 erid:2VtzqwQM2BJ

03/24/2025, 11:51

t.me/psy_eyes/2552

PS

Psy Eyes

5 590 subscribers

224

6.2 k

03/24/2025, 11:50

t.me/psy_eyes/2551

PS

Psy Eyes

5 590 subscribers

226

6.3 k

Bytedance: выпустили Infinite You (InfU), фреймворк для генерации картинок с целевой персоной.

Работает как PuLID, InstantID, PhotoMaker, и другие модели на эту тему, вписывая загруженное лицо в нужный сеттинг. Но в отличие от них здесь используется InfuseNet — компонент, который внедряет идентификационные характеристики в базовую модель DiT, позволяя придерживаться лица с рефа, при этом чётко следуя промту и выдавая высокое качество изображения.

Из коробки работает с контролнетами, лорами, и IP-адаптерами.

Демо
Сайт
Гитхаб

03/24/2025, 11:50

t.me/psy_eyes/2550