Your trial period has ended!
For full access to functionality, please pay for a premium subscription
KD
Константин Доронин
https://t.me/kdoronin_blog
Channel age
Created
Language
Russian
-
ER (week)
32.96%
ERR (week)

По любым вопросам, которые не хотите задавать в комментариях, можете писать напрямую – @kdoronin

Messages Statistics
Reposts and citations
Publication networks
Satellites
Contacts
History
Top categories
Main categories of messages will appear here.
Top mentions
The most frequent mentions of people, organizations and places appear here.
Found 222 results
04/23/2025, 21:12
t.me/kdoronin_blog/651
Про безопасность AI-кода и то, насколько важно понимать всё, что происходит в проекте.

Сегодня наткнулся на исследование на сайте socket.dev относительно опасности, нависшей над разработчиками программ с использованием Telegram API.

Краткая суть:
Из-за того, что Telegram перевалил за миллиард пользователей, он становится популярнее в качестве цели для атак злоумышленниками. Они создают npm-пакеты, очень похожие на популярные (см. медиа поста). Разработчик, перепутав, начинает его использовать в проекте и получает в качестве бонуса ssh-бэкдор.

Сразу вспомнился частый паттерн от Cursor, который звучит в его исполнении примерно так: "Ой. Это не сработало. Попробуем другой подход...". После чего просто начинает перебирать python-библиотеки одну за другой.

Помимо прочего, на этой неделе у меня состоялась абсолютно случайная встреча в кафе. Помните, я как-то затрагивал тему про оптимизацию своего контента и коммерческих предложений под LLM? Человек, с которым я познакомился, предлагает такую услугу клиентам. Тот самый "следующий виток SEO".

Ключевая концепция в представлении компании в интернете таким образом, чтобы при следующем "обучении на актуальных данных" LLM считали информацию в интернете и сформировали в своих весах более позитивный образ компании. В результате, именно товары данной компании AI будет предлагать в "Дай мне топ-5 газонокосилок для участка в 6 соток".

Теперь предлагаю совместить эти две истории.

Допустим, цель – взломать некоторое количество разработчиков, которые пишут софт определённого типа. Например, занимаются разработкой ботов для Telegram.

Мы создаём пакеты с бэкдором на npmjs. К счастью, их там никто не проверяет. Делаем их либо очень похожими на оригинал, либо создаём видимость "взрослого и серьёзного" пакета.

Идём на тематические авторитетные ресурсы. Например, на Stackoverflow очень любят обучаться LLM в вопросах написания кода. Создаём какое-то количество вопросов по Telegram API, а в качестве ответа предлагаем использовать заражённый npm-пакет. Также можно сделать в открытых репозиториях github несколько "пет-проектов разработчиков", в которых используется заражённый npm-модуль.

Ждём полгода-год, когда наши материалы попадут в обучающую базу популярных AI-моделей и начинаем собирать урожай из вайб-кодеров, которые готовы принять любые изменения лишь бы их программа наконец-то заработала.

Готово! Вайб-кодинг под угрозой.

Какие выводы из этой гипотетической ситуации можно сделать?

1. Очень не похоже, что в ближайшем будущем модели можно будет сказать просто "сделай круто" и она сама разберётся во всех хитросплетениях всего, что может пойти не так. Либо это так будет, но под капотом разработчики должны будут учесть все нюансы.

2. Стоит добавить во все правила AI IDE сценарии поведения с любыми внешними пакетами и зависимостями.

3. Я бы предложил добавить отдельного AI-агента, отвечающего за безопасность кода. Чтобы он проводил по всем используемым решениям аналитику на предмет потенциальных рисков. Сюда же стоит закинуть проверку известных уязвимостей в конкретных версиях не зловредных фреймворков.

4. В идеале – перед отправкой в продкашн полностью перепроверять вручную в файле конфигурации все используемые библиотеки. На предмет "подозрительных следов".
04/23/2025, 21:12
t.me/kdoronin_blog/652
n8n на данный момент – это самый популярный open source nocode-инструмент.

Как положено в парадигме nocode, позволяет при помощи специальных блоков собирать процессы (workflow), не используя программный код.

Только с нуля стать крутым nocode-разработчиком едва ли получится.

Потому что n8n предлагает по-настоящему много возможностей. Концентрируя различный функционал в своих nodes (или блоках).

Вот сводные данные по доступным в n8n блокам, если запустить его 22 апреля 2025 года:

1. Блоки разделены по 17 категориям (включая системные).

2. Всего существует 766 уникальных блоков.

3. У блоков суммарно 20104 настройки.

4. Существует только 2 блока вообще без настроек.

5. И да. Больше всего блоков содержится в категории "AI". Их там 338!

Кстати, какие-то простые Workflow вам может собрать ChatGPT или Claude. Достаточно попросить. Но используемые блоки, как вы понимаете, должны быть очень популярными и достаточно старыми (чтобы модель про них знала). n8n позволяет импортировать workflow из json.

В общем, очень полезный инструмент для того, чтобы быстро собрать прототип автоматизации, например. Скорее всего, nodes для систем, с которыми вы работаете, там уже добавлены. Но для освоения на уровне "мастера" придётся вложить достаточно много времени.

p.s.: картинка – это олицетворение того, во что может превратиться nocode-workflow, если не контролировать разработку.
04/22/2025, 23:11
t.me/kdoronin_blog/650
Фреймворк FastMCP – быстрый путь к запуску собственного MCP-сервера в соответствии со стандартами и последними новинками протокола.

Он предоставляет удобные интерфейсы для реализации протоколов взаимодействия, а также добавления новой функциональности (tools, prompts, resources и т.д.).

Например, сервер, который я использовал для видео-демонстрации работы MCP Inspector, написан при помощи FastMCP. Просто потому что его реализация заняла 17 строк.

Отдельно стоит отметить категорию с паттернами, описанную в документации FastMCP. Примеры оттуда позволяют создать, например, полноценный MCP-сервер из приложения FastAPI всего в две строки.

В следующих постах расскажу подробнее о создании MCP-сервера с использованием FastMCP, а также про отладку и тесты в MCP Inspector.
04/21/2025, 22:50
t.me/kdoronin_blog/649
MCP Inspector – отличный инструмент, помогающий при разработке и отладке MCP серверов.

Он был опубликован командой протокола MCP одновременно с самим протоколом.

Основная задача MCP Inspector – подключиться к существующему серверу и предоставить возможность проверить его работоспособность в разных кейсах, не прибегая к помощи сторонних MCP-клиентов.

Может работать как в режиме браузера (см. скринкаст в медиа поста), так и в режиме cli (для массового прогона тестов – отличный вариант).

Поддерживает отладку всех ключевых абстракций в MCP. Запустить можно одной npx-командой.

В общем, must use для всех, кто разрабатывает и запускает собственные MCP-сервера.
04/20/2025, 22:34
t.me/kdoronin_blog/648
Несколько дней тестировал последние нововведения от OpenAI. Новые модели, концепции и вот это всё. Делюсь наблюдениями.

ChatGPT научился более детально анализировать изображения. Можно дать любую фотографию и получить по ней много информации. Профессиональные исследователи, как те, чья история описана тут, пополнят арсенал полезным инструментом. Ознакомьтесь предварительно со статьёй, чтобы лучше понимать о чём пойдёт речь далее.

Однако результаты обязательно перепроверять человеком. Я взял два изображения из материала по ссылке и попросил найти место съёмки. Оба раза модель очень сильно промазала (Африка и Саратовская область вместо Украины). Стоит отметить, что на первом шаге модель рассматривала Южную и Центральную Украину, как наиболее-вероятное место съёмок. Как на следующем шаге точка уехала в Африку – загадка.

Думаю, если давать больше информации, которая есть у исследователей, модель будет лучше выполнять поставленные задачи.

O3, кстати, может самостоятельно разрезать исходное упражнение на части и анализировать каждую из них отдельно.

Также ChatGPT теперь по-умолчанию старается персонализировать ответы под конкретного пользователя. Интересная функциональность, но в некоторых моментах стоит её отключать, прося AI не использовать то, что известно о пользователе. Так как при общем ответе на нейтральный вопрос мне совсем не нужно, чтобы нейронка добавляла мне примеры с AI ("ну, тебе же интересен искусственный интеллект, правда?").

И последнее. Теперь при работе с o3 не нужно отдельно включать инструмент поиска. Он действует как AI-агент и вызывает инструменты по мере необходимости.

Вывод: развитие reasoning-моделей заметно. Но задачи, в которых нужно управлять контекстом и переключать его от общего к частному, всё ещё решаются с недостаточно высокой эффективностью. Инструмент, ускоряющий решение простых задач человеком – да. Но переложить сложную и комплексную задачу даже на плечи ChatGPT o3 вряд ли получится. Полный результат моих попыток расследований по фотографиям можете увидеть тут. Я намеренно не пытался улучшать результаты подготовленным промптом, чтобы проверить качество работы агента "в исходном виде".
04/19/2025, 22:38
t.me/kdoronin_blog/647
Сегодня очень необычный для меня формат поста. Буду хвалить подписчика. Поверьте – оно того стоит!

Внимательные читатели моего канала могли заметить, что почти под каждым постом стоит, как минимум, одна "звёздочка".

Эту звезду ставит Серёга. Он – один из первых подписчиков этого канала. Был тут задолго до первого поста. По совместительству – мой друг и человек, который кому-то из вас помог познакомиться с этим каналом 🙂

Он не просто ставил звёзды, но и применял на практике то, что о чём я пишу. Пробовал создавать агентов, использует Cursor, активный пользователь AI-инструментов. Ответственный, в общем, подписчик.

В рамках компании, в которой он работает на позиции Product Manager, Серёга решил запилить LLM-продукт с RAG-поиском по документам компании. Чтобы сотрудники могли быстрее находить нужные документы.

Через несколько pivot-ов и этапов взаимодействия с коллегами, он пришёл к тому, что его проект включили в стратегический план компании и со всех сторон активно поддерживают.

Как это было в нашем диалоге (привожу нарратив его сообщений):

1. Я тут в курсоре хочу запилить бота в телегу, чтобы по внутренним документам искать инфу.

2. О, а как делать RAG?

3. Оно работает! Правда, ссылки на документы не даёт...

4. НАВАЙБКОДИЛ БЛИН! У меня проект не запускается, а завтра его показывать!

5. Фух. Вроде MVP собрал.

6. ПРИКИНЬ! Им понравилось!

7. Всем всё нравится! А мне – нет. Я-то понимаю, что там внутри!..

8. Ой. Мой продукт теперь в стратегическом плане компании...

Это очень краткая версия и, на самом деле, всё было не так-то просто (см. картинку к посту). Я считаю, что Серёга – красавчик. Изо дня в день этими маленькими ручками по ночам пилил MVP продукта и, в конечном итоге, начал получать признание от коллег и начальников.

Сама история ещё не окончена! И, я думаю, его в ближайшее время ожидает стремительный рост. Потому что регулярность и усердие непременно должны вознаграждаться.

А, да. У него ещё есть канал. Маленький личный дневник только "для своих". Там больше подробностей. В том числе, есть возможность узнать, в какой компании он работает и схантить его к себе за много денег.

Что ж. Надеюсь, что количество "своих" немного увеличится. Вот ссылка для вступления. Я договорился с Серёгой, что уберу её в понедельник вечером (стесняется, ага). Если вам интересно, к чему приведёт эта история – можете подписаться. Ах, да. Серёга просил "не гнать никого". Поэтому ссылка не является призывом всех срочно подписываться. Правда-правда 🙂

p.s.: картинка – это краткая история того, как Серёга приходил к текущим достижениям. Он сам предложил её использовать.

p.p.s.: если вы хотите поделиться своими историями про использование и внедрение AI в своей деятельности – прошу в комментарии. Какие-то, вероятно, вытащу в качестве темы одного из следующих постов (после согласования с автором).
04/18/2025, 21:28
t.me/kdoronin_blog/646
Langfuse – инструмент для наблюдения за работой LLM через удобный веб-интерфейс.

Наткнулся сегодня на него, когда изучал обновление Goose (про него напишу в другой раз).

За счёт большого количества интеграций почти со всеми популярными библиотеками, позволяет без труда получать из них данные и обрабатывать их таким образом, чтобы можно было анализировать историю взаимодействия и технические параметры запросов через веб-интерфейс.

Также имеет удобные дашборды для анализа того, как LLM взаимодействует с пользователями и каких результатов достигает.

Интересная фича – менеджмент промптов. Позволяет запускать новые промпты в работу и сравнивать их результативность.

Более детальную презентацию инструмента можете посмотреть в видео поста.

Вывод: выглядит, как отличный инструмент для более-менее состоявшихся проектов, которым необходимо отслеживать и повышать качество работы AI-приложения.
04/18/2025, 02:42
t.me/kdoronin_blog/645
04/16/2025, 23:16
t.me/kdoronin_blog/642
04/16/2025, 23:16
t.me/kdoronin_blog/641
04/16/2025, 23:16
t.me/kdoronin_blog/643
Помимо новой модели для генерации, Kling также выпустили Multi-Elements Editor для модели Kling1.6.

На самом деле, редактирование изображений с помощью AI – это очень важный шаг в развитии AI-видеогенераторов. Так как добавляет контроля за тем, что происходит в кадре.

Multi-Elements Editor позволяет добавлять новый объект в видео, удалять один из существующих, а также заменять один объект на другой.

К сожалению, инструмент поддерживает максимум 5-секундные ролики. Также есть ограничение, что в видео должно быть, как минимум, 24 кадра в секунду. Иначе он его не обработает. Лучше также брать FullHD-видео, потому что это родное разрешение для Kling1.6.

После загрузки видео не забудьте нажать на карандаш в правом верхнем углу превью и выделить с помощью специального инструмента изменяемый объект.

Удаляет элементы Kling просто отлично! Вообще без следов. Траволта шикарно отжигает на танцполе в одиночестве.

С добавлением есть некоторые шероховатости, но приятно, что другие объекты на видео остаются без изменений.

Со swap вопросов больше всего. Там и артефактов больше, и аппетиты у модели растут настолько, что она зацепила Траволту, меняя персонажей Умы Турман. Однако я специально взял достаточно сложную динамичную сцену. В примере с "Титаником" swap получился качественнее.

p.s.: Приятно, что у девочки из "Звонка" всё как-то начало налаживаться. Как резко может измениться жизнь, если правильно «засветиться на телике» 😊

p.p.s.: звуковую дорожку под видео Kling также сгенерировал самостоятельно при помощи встроенных инструментов.
04/16/2025, 23:16
t.me/kdoronin_blog/644
04/15/2025, 23:46
t.me/kdoronin_blog/637
04/15/2025, 23:46
t.me/kdoronin_blog/638
У Kling вышло долгожданное обновление до версии 2.0! Если быть точным, то модель называется Kling 2.0 Master.

Это один из тех продуктов, которыми я пользуюсь регулярно и про обновления узнаю (и пишу) день в день.

Запуск, надеюсь, пока тестовый. Так как в версии 2.0 доступна только генерация в 720p. Напомню, версия 1.6 умеет в FullHD.

Переделал некоторые старые генерации с использованием Kling 2.0 Master. Сравнить можете в медиа. Ниже описано моё мнение по сравнению.

Дракон у Master однозначно получился правдоподобнее. И город куда более реалистичный, без низкополигональности, которую даёт версия 1.6.

Яхта – это первое сгенерированное мной видео в Kling. Ещё на модели 1.5. И версия от прошлогоднего Kling1.5 мне нравится больше, чем у 2.0.

Ленин – моя лучшая генерация в Kling1.6. Версия 2.0 тоже старается, но ничего интересного для решения вопроса спуска вождя с постамента генератор не предложил. В целом – получилось неплохо, хоть и добавил Master немного меди.

Корабли в космосе не поддаются ни старой, ни новой версии Kling. Возможно, text-to-video глобально не подходит под эту задачу и надо заходить через image-to-video. Однако космос у 2.0 получился потрясающим!

Вывод: я жду ещё одного анонса от Kling, в котором они привезут в Master FullHD и хотя бы немного снизят стоимость генерации для этой версии. Пока что апдейт выглядит достаточно минорным, если брать именно задачи классических генераций. Закуплю ещё токенов и попробуем, как новая модель работает с Multi-Elements.
04/15/2025, 23:46
t.me/kdoronin_blog/640
04/15/2025, 23:46
t.me/kdoronin_blog/633
04/15/2025, 23:46
t.me/kdoronin_blog/634
04/15/2025, 23:46
t.me/kdoronin_blog/636
04/15/2025, 23:46
t.me/kdoronin_blog/639
04/15/2025, 23:46
t.me/kdoronin_blog/635
Не знаю, как я это упустил, но на fal.ai наконец-то появилась возможность тренировать собственные LoRA для Wan.

Это open source видео-генератор. Писал про него тут, а про модель Wan Effects писал тут.

Ссылки на то, что нужно для тренировки LoRA и генерации видео с её помощью: модель для тренировки и модель для генерации с использованием LoRA.

Рекомендованное количество шагов для тренировки стоит всего $2.

Попробовал сделать портретную LoRA из фотографий – это не удалось. Даже отдалённо не получается сгенерировать того же персонажа.

Теперь буду пробовать сделать тренировку по какому-то действию. Должно получиться интересно. Если у вас есть идеи, что можно выбрать принципиально-нового для обозначенных целей (генерация LoRA из видео), поделитесь в комментариях.

p.s.: поскольку материалов от Wan LoRA добиться пока не удалось, вот вам подходящий под ситуацию мем в стиле картин эпохи Возрождения.
04/14/2025, 23:46
t.me/kdoronin_blog/632
Искусственный интеллект в мессенджере.

Telegram – это основное приложение, которое я использую на телефоне. И основное средство связи с миром.

Думаю, вы уже знаете, что за последний месяц в Telegram пришли Grok (бесплатно для подписчиков Telegram Premium) и Perplexity (бесплатно для всех).

Совершенно внезапно я обнаружил, что существует целый Telegram-клиент, адаптированный под продуктивность и работу с использованием AI. Зовётся он Nicegram.

У него много интересных UX-фишек и вне AI. Шаблоны для ответов в личных сообщениях, папки по тегам, дополнительный уровень приватности, а также возможность иметь много профилей в одном приложении (полный список возможностей – тут).


Теперь чуть подробнее именно про AI-фичи:

1. Собственная команда мультимодальных AI-ассистентов. У каждого своя специализация и роль. Список всего, что можно запустить с их помощью – на скринкасте.

2. Собственный дешифратор голосовых сообщений. Который, по ощущениям, работает быстрее, чем встроенный в Telegram.

3. Собственный магазин с AI-агентами под разные цели. Особенно понравились те, которые используют AI для нетворкинга и для управления собственным кошельком от Nicegram.


Есть также и минусы:

1. Почти все функции с AI – платные. Придётся раскошлиться на подписку, чтобы всё попробовать. Однако, если преображение Telegram-клиента с помощью Nicegram добавляет вам эффективности в рабочих задачах, то почему бы и нет?

2. Иногда проскакивают механики, как в каких-то донатнопомоечных мобильных играх. В духе "Если хочешь использовать AI-ассистента, докупи премиум-алмазов". Можно было назвать их просто AI-токенами, как на других платформах.

3. В бесплатной версии есть дополнительная реклама, а также по-умолчанию закрепляют какие-то собственные чаты в списках.

Интересный пример альтернативного клиента для Telegram. Пока я не уверен, что на него перейду, но планирую опробовать имеющиеся функции (для начала – бесплатные), а потом уже приму окончательное решение о том, что буду использовать.
04/13/2025, 21:53
t.me/kdoronin_blog/631
Про управление памятью в системах AI-агентов.

Память – это то, что позволяет AI-агентам (и сетям AI-агентов как следствие) эффективно управлять знаниями и вниманием. Поэтому её организация – это один из ключей к повышению качества работы системы в целом.

Даже в условиях огромного контекста (привет свежим Gemini и Llama), важно для модели расставить акценты, имеющие отношение к предметной области и настроить дополнительные процессы (о них – ниже).

Концептуально. обычно используют три вида памяти:

1. Оперативная. Память, которая хранится в контексте и содержит в себе обрабатываемые данные в "сыром виде". Например, для диалогового агента, это история переписки с пользователем. Не должна занимать вообще весь доступный у модели контекст, так как существует ещё п.2.

2. Объектная. Также хранится в контексте модели. Но данные хранятся в виде объектов и их свойств. Она очень важна, так как оказывает сильное влияние на поведение AI-агента, а также обеспечивает ему правильное понимание предметной области, с которой он работает.

3. Постоянная память. Это внешнее хранилище с данными, не нужными для принятия решений AI-агентом в текущий момент. Система AI-агентов должна иметь возможность не только получать данные из этой памяти по запросу, но и обновлять её в процессе работы.

Успешное управление всеми тремя типами памяти – это: не забивать весь контекст оперативной памятью, грамотно обозначать объекты, характеристики и связи между ними для объектной памяти, а также в нужный момент получать и всегда поддерживать в актуальном состоянии постоянную память.

p.s.: интересное место в Омане. С одной стороны – Персидский (здесь его зовут Арабским) залив, а с другой стороны – Оманское (а для кого-то – Аравийское) море (которое уже почти Индийский Океан).
04/12/2025, 22:29
t.me/kdoronin_blog/630
04/11/2025, 21:11
t.me/kdoronin_blog/628
Что делать с большим количеством MCP-серверов на ПК? Пока что у меня нет ответа.

Уже сейчас, чтобы начать полноценную работу, мне, например, приходится запускать два сервера, чтобы они "висели" в терминале.

Дальше – больше.

Поэтому, в ближайшее время должен появиться продукт, который позволит управлять всеми установленными MCP-серверами. И запускать те, которые требуют запуска в фоне (как MCP для figma и браузера, например).

Ожидаю, что он позволит видеть все установленные в ОС MCP-сервера, формировать из них файлы конфигурации для различных MCP-клиентов и даже автоматически эти конфигурации обновлять. Также, само собой, будет возможность удалить уже установленный MCP-сервер, если он не используется.

Что думаете на этот счёт? Возможно, такое решение уже существует и это я с DeepResearch плохо смотрел?

p.s.: на выходные поехал в Северный Оман. Количество медиа с горами и морем неизбежно возрастёт 🙂
04/11/2025, 21:11
t.me/kdoronin_blog/629
На днях у Google произошло извержение релизов.

Меня больше всего заинтересовали два:

1. Firebase studio – по сути, очередная AI IDE в браузере, но теперь от Google! Может хоть они научили своих агентов-кодеров не уходить в бесконечный цикл из "я исправил ошибку, но создал новую".

2. ADK. Он же Agent development kit. Open source framework для создания сетей AI-агентов.

Сегодня хочу чуть подробнее остановиться на втором. А точнее на том, о чём нам говорит его документация:

1. Сейчас выпущен ADK версии 0.1.0. То есть ознакомительная версия, не готовая для продакшна. Это необходимо учитывать.

2. База для всех новых решений для создания AI-агентов – ADK поддерживает tools от Lang Chain и Crew AI.

3. Ещё один обязательный пункт: ADK умеет работать с MCP. Без него в 2025-м никуда.

4. Организация памяти очень похожа на то, что есть в Crew AI. Существует "оперативная память" (тут она называется Session), объектная память (это State, который хранит данные о сущностях), а также Memory, являющаяся памятью постоянной.

5. Понравилась абстракция Artifacts. То, что она есть в столь ранней версии, показывает, что Google ставит в приоритет мультимодальность агентских систем.

6. Древовидная вертикальная абстракция взаимоотношений между AI-агентами. У каждого агента может быть только один родитель. Горизонтальные отношения могут быть последовательными, параллельными или циклическими.

7. В специальном репозитории есть 8 примеров готовых AI-агентов от Google.

8. Callbacks. Ключевая часть системы, так как именно callbacks обеспечивают сети агентов высокий уровень надёжности. Это своего рода хуки, которые могут вызывать кастомный код в разные моменты жизненного цикла AI-агента.

Вывод: Я достаточно скептически отношусь к запускам новых продуктов от Google. Уж слишком велико у них кладбище убитых проектов. Так что сейчас стоит рассматривать ADK, как интересный фреймворк для тестов, но какие-то долгосрочные ставки на него делать пока рано.
04/11/2025, 00:39
t.me/kdoronin_blog/627
04/09/2025, 20:42
t.me/kdoronin_blog/623
ChatGPT и сексизм.

Цензура в OpenAI направлена, в том числе, на то, чтобы ни в коем случае не позволить пользователям сгенерировать что-то, хотя бы отдалённо напоминающее NSFW.

Доходит до того, что слово "девушка" для OpenAI – это что-то запретное. Посмотрите на видео к посту. Пока не назвал её "женщина 25 лет", ChatGPT начисто отказывался делать генерацию.

Также у него значительно чаще возникают проблемы, когда нужно сделать стилизацию фотографии женщины, а не мужчины. Приходится уговаривать.

Это, кстати, интересный момент. С развитием нейросетей, с ними стало проще "договориться", когда они не хотят сделать желаемое с первого раза.

Claude, в свою очередь, боится как огня упоминания любых крупных брендов. Даже промпт не станет создавать, который позволит сделать генерацию картинки в стиле Disney.

p.s.: сегодня развлекаюсь созданием изображений в стиле Симпсонов. Альтернатива гиблификации 🙂 Делюсь примерами генераций с вами.
04/09/2025, 20:42
t.me/kdoronin_blog/626
04/09/2025, 20:42
t.me/kdoronin_blog/625
04/09/2025, 20:42
t.me/kdoronin_blog/622
04/09/2025, 20:42
t.me/kdoronin_blog/624
04/08/2025, 23:42
t.me/kdoronin_blog/620
За сегодняшний день я дважды столкнулся с мнением, что инструменты DeepResearch или любые другие модели "из чата" умеют анализировать видео с YouTube.

Конечно же, это не так. Без дополнительных MCP-серверов текстовым моделям никто не позволит анализировать видео. Это просто нерентабельно с точки зрения компании, предоставляющей LLM.

Почему же модели могут иногда достаточно "натурально" описывать происходящее на видео?

Ответ прост – модели загружают, "читают" и анализируют субтитры с YouTube-видео. И всё.

У моделей нет доступа к видеоряду или звуку, используемому в видео. Поэтому в ситуациях, когда визуал – это важная часть повествования видео, анализ может получиться достаточно скудным.

Вот только даже если сохранять по одному кадру с каждой секунды видео, мы получим достаточно большое количество кадров в попытке анализировать "большие" видео.

А вот попробовать анализировать таким образом reels/shorts – вполне себе реалистичная идея.

Именно этим я сейчас занимаюсь. Скрипт уже умеет нарезать видео на указанное количество кадров, а потом скармливает их в Llama 4 Scout и формирует JSON с покадровым описанием. Далее полученный JSON можно использовать в качестве базиса для вопросов к LLM в духе "Почему оно такое популярное?".

Накидайте в комментарии каких-нибудь популярных shorts/reels из своей сферы – попробую сделать анализ 🙂

p.s. (про медиа поста) Проанализировал первые 4,5 секунды видео (по 10 кадров на секунду) у этого shorts. Интересные результаты. Особенно у ChatGPT после того, как я его попросил игнорировать навязчивую рекламу.
04/08/2025, 23:42
t.me/kdoronin_blog/621
04/07/2025, 21:28
t.me/kdoronin_blog/616
04/07/2025, 21:28
t.me/kdoronin_blog/614
04/07/2025, 21:28
t.me/kdoronin_blog/618
04/07/2025, 21:28
t.me/kdoronin_blog/617
04/07/2025, 21:28
t.me/kdoronin_blog/615
Открыл для себя существование CrewAI Studio.

Это Open Source проект, который позволяет создавать сеть AI-агентов с использованием CrewAI через графический интерфейс.

Он позволяет создать команду из агентов с инструментами (есть предустановленные 27 инструментов!) и базой знаний (включая Postgres, да), выделить этой команде задачу и запустить выполнение задачи непосредственно в интерфейсе браузера (для интерфейса используется Streamlit).

Одна из немногих ситуаций, когда просто запуск трёх команд из Readme репозитория, обеспечивает работоспособность проекта. Так что тут и добавить нечего в плане особенностей запуска.

Из минусов, которые нашёл на данный момент, – почему-то не дружит с Openrouter. Хотя казалось бы... 🙂 Но, поскольку это Open source, всегда можно самостоятельно расширить его функциональность.

В общем, если хотите подробный кейс с описанием того, как сделать систему AI-агентов с помощью CrewAI Studio – ставьте 🔥

А в комментариях пишите, чем команда AI-агентов будет заниматься в данном кейсе.
04/07/2025, 21:28
t.me/kdoronin_blog/619
Попробовал только что вышедшую Llama 4.

Есть три модели – Behemoth (громадный, как Чудище из Цитадели, но пока не доступен), Maverick (средняя модель с 1M контекста) и Scout (самая скромная модель с самым нескромным контекстом в 10M токенов!).

Во-первых, где попробовать её бесплатно:

1. https://console.groq.com/ – на Groq после бесплатной регистрации. Работает очень быстро (500 токенов в секунду у Scout!).

2. https://openrouter.ai – хоть медленнее, но тоже бесплатно. Есть как Scout, так и Maverick.

Обе платформы позволяют использовать модели по API. Но у Openrouter нет суточного лимита.

Что интересного обнаружил в моделях:

1. Обе отлично справляются со своей мультимодальностью. Можно попросить рассказать, что изображено на картинке (даже младший Scout прекрасно подмечает детали!) или изучить PDF.

2. Заточены под работу с агентами. Поэтому способны формировать валидный JSON-вывод для передачи в AI-агента.

3. Огромный контекст в 10M токенов у Scout и 1M – у Maverick. Вот тут есть подвох. По API пока что никто не дал доступ к полному контексту. У Openrouter значение выставлено в 512K для Scout и 256K для Maverick. У groq.com контекст порезали до 131K токенов для обеих моделей. Хотите 1M/10M – придётся запускать на арендованном сервере.

4. Scout достаточно плохо справляется с русским языком (много ошибок). На английском качество очень близко к старшей модели. Думаю, объём младшей модели урезали в том числе за счёт мультиязычности.

5. По идее, Llama 4 должна уметь обрабатывать сразу несколько изображений за раз. И это очень крутая фича для обработки, например, видеопотока. Когда можно сразу загрузить несколько кадров и понять, что происходит в динамике. Openrouter даже позволяет грузить до 4-х изображений в чат с моделью. Вот только отправляет он эти изображения как-то неправильно, поэтому Llama их попросту не видит. Попробую ещё по API этот сценарий прогнать.

В целом, мы получили отличное обновление для одной из главных Open Source моделей на рынке на данный момент. Успели уже попробовать? Для каких задач планируете применять?
04/07/2025, 00:03
t.me/kdoronin_blog/613
Вы заметили, какой AI-агент в Cursor на базе Claude 3.7 Sonnet излишне-проактивный?

Так и хочет запихнуть в проект что-то лишнее, без чего по его мнению проекту точно не жить.

Сделал .cursorrules с простыми инструкциями для того, чтобы сохранять за собой возможность отслеживать все изменения, которые AI пытается добавить в проект.

Без контроля за состоянием проекта, в конечном итоге, он превратится в неконтролируемую мешанину, которую невозможно поддерживать. Помните об этом!
04/05/2025, 21:12
t.me/kdoronin_blog/612
Про системы производства контента с помощью AI или что такое "Контент завод".

Так произошло, что я имею достаточно много опыта в настройке системы по производству текстового (в первую очередь) контента. Правда, тогда это была работа с живыми авторами, организация процессов подготовки и публикации контента.

Сейчас время AI. Термин "Контент завод" означает собой систему разной степени автономности, которая позволяет производить, собственно, контент. Создаётся такая система с использованием систем AI-агентов.

Какие задачи может закрывать "Контент завод":

1. Сбор информации из множества источников.

2. Фильтрация полученных данных. Чтобы избежать малоценного контента для вашего проекта.

3. Саммаризация данных по инфоповоду из разных источников, чтобы не упустить детали.

4. Факт-чекинг основных тезисов.

5. Формирование единицы контента в заданном (или одном из заданных) стиле.

6. Форматирование и отправка контента по площадкам.

Имея контентный завод, можно настроить степень автономности, отдав людям работу по самым критически-важным этапам процесса.

Список выше – это схема работы в общих чертах. Каждый из пунктов может включать в себя сразу несколько интересных технических и бизнес решений.

Данным постом я открываю цикл материалов с кейсами, возникающими при построении "Контентного завода". Если у вас есть какие-то пожелания, вопросы по этой теме или опыт, которым вы хотели бы поделиться – добро пожаловать в комментарии 🙂
04/05/2025, 00:29
t.me/kdoronin_blog/611
AI на службе сомнительных личностей. Популярные примеры.

Как мошенники используют AI для того, чтобы выудить деньги у доверчивых граждан:

1. AI-боты, которые притворяются людьми в переписке и потом вымогают деньги, предлагая "100% схему, как заработать" (писал об этом тут и тут)

2. AI-рерайт спама для e-mail, чтобы снизить процент писем, попадающих в соответствующую папку.

3. Специальные LLM, помогающие хакерам искать уязвимости в сайтах.

4. Если аккаунт взломан, то с него мошенники могут посылать очень натуральные голосовые сообщения или даже кругляши с AI-аватаром жертвы. Это позволяет увеличить конверсию в перевод денег.

5. Фишинговые сайты стало создавать гораздо быстрее с помощью AI-IDE. То есть свои гипотезы мошенники теперь тестируют быстрее.

6. RAG по истории переписки взломанного аккаунта с предполагаемой жертвой. Чтобы быть в контексте того, как владелец аккаунта обычно взаимодействует с каждым конкретным контактом.

7. И ещё целая пачка работающих инструментов, про которые я не знаю, так как не в индустрии.


Чтобы защитить себя от перевода денег мошенникам, думая, что помогаешь знакомому, всегда проводите "викторину" после запросов "дать в долг". Задайте несколько вопросов о каких-то событиях в офлайне (чтобы нельзя было найти в сети), о которых знает только ваш собеседник. Либо просто позвоните по телефону, если такая возможность есть. Да и вообще. Если просит занять денег – пусть приедет и заберёт наличные.

p.s.: вообще мошеннические сайты – это, как правило, очень эффективные "продукты". У них есть ресурсы для того, чтобы применить самые последние решения и нанять дорогих специалистов. Поэтому фишинговые сайты можно анализировать на предмет действительно рабочих продуктовых решений 🙂
04/03/2025, 22:45
t.me/kdoronin_blog/610
Неочевидный способ применения генераторов изображений от OpenAI в маркетинге?

Несколько лет назад я был на выступлении на конференции. Темой выступления было "Как быстро тестировать гипотезы для игр в жанре Hyper Casual?".

Автор презентации рассказывал, как он очень быстро, буквально за 2 недели, реализовывал следующий цикл: "Разработать демо геймплея – запустить рекламную кампанию – проверить CTR идеи".

Он собирал готовое демо на игровом движке примерно за неделю. Это казалось очень быстрым. Вторая неделя была посвящена целиком и полностью запуску и тестам рекламной кампании.

Демо использовалось для записи видео, чтобы разместить его в качестве рекламы на платформах, где поддерживается видео-реклама.

Дальше замеряли CTR и таким образом можно было понять, что идея геймплея с CTR>15% интересна для реализации.

Благодаря возможности генерации достаточно консистентных изображений и видео из них, теперь можно собирать "демо геймплея" не за неделю, а за один рабочий день. Сгенерировав несколько "скриншотов игры" и добавив между ними геймплей при помощи AI-видеогенераторов.

Но есть одно но! (а в этом предложении – целых два!) Видеогенераторы, которые делают, условно, 5-секундное видео по первому и последнему кадру, не всегда дают достаточную консистентность. А её отсутствие может негативно повлиять на CTR объявления. Пример такой "не самой удачной" генерации можете посмотреть в видео к посту.

Поэтому эксперимент с тем, как добиться максимально-возможной консистентности для большего количества разнообразных примеров, будет продолжаться. Уже есть несколько идей, как это реализовать с помощью AI. Если у вас есть свои – делитесь ими в комментариях 🙂
04/03/2025, 00:49
t.me/kdoronin_blog/609
Попробовал опубликовать свой MCP-сервер из вчерашнего поста на платформу-агрегатор mcp.so .

Теперь у него там есть собственная страница.

Но есть одна вещь, которая меня в этом процессе сильно смутила.

Я авторизовался на сайте, нажал "добавить MCP-сервер" и у него тут же появилась страница.

Не было модерации. Ни меня, как разработчика, ни того, что я назвал "MCP-сервер".

Технология MCP сейчас активно набирает популярность. И решения для подключения к тем или иным приложениям будут появляться, как грибы после дождя.

Более того – многие из "коннекторов" сами по себе требуют приватные данные. Пароли для авторизации, секретные ключи и прочее.

Особо-переживающие из-за собственной эффективности менеджеры уже подключили себе AI-агентов с доступом к корпоративным приложениям.

Что я хочу сказать этим постом: не доверяйте MCP-серверам, размещённым на подобных сайтах-агрегаторах. Перед запуском любого сервера, попросите AI-IDE (или любого другого агента с доступом к файловой системе) провести аудит безопасности проекта на предмет наличия вирусов и отсутствия пересылки ваших данных в "прекрасное далёко".

Сохраняйте бдительность! Не все AI-инструменты одинаково полезны 🙂
04/01/2025, 21:25
t.me/kdoronin_blog/608
Сегодня обнаружил, что у моего github-репозитория с Telegram MCP Server целых 2 звезды от пользователей.

Это в среднем на 2 звезды больше, чем у других репозиториев 🙂

Как вы помните из этого поста, вместо MCP-сервера я использовал простой http-сервер, куда ходил через curl за данными.

Сегодня переработал сервер и теперь это полноценный MCP. Работает через stdio.

Пока что реализует 3 инструмента:

1. getDialogs: получает список чатов пользователя.

2. getMessages: получает сообщения из указанного чата.

3. sendMessage: отправляет сообщение в указанный чат.

Есть ещё executeMethod, но этот метод я пока даже не тестировал, поэтому в его работоспособности не уверен.

Перед использования методов из списка, дайте AI-агенту свой номер телефона в международном формате (если он сам ещё его не знает, конечно же).

Список методов MCP-сервера планирую расширять. Чтобы он мог стать, фактически, AI-клиентом для Telegram.
03/31/2025, 22:14
t.me/kdoronin_blog/607
Искусственный интеллект позволяет писать код даже на той технологии, которую до этого изучать не приходилось.

Что должен изучить человек, чтобы итоговый программный продукт получился качественнее?

Я считаю, что аналитика и разработка архитектуры, с приходом AI, остаются важными деталями процесса, которые обязательно должен контролировать человек.

Поэтому ключевые знания о новой технологии (это может быть фреймворк, библиотека или новый язык программирования) – это понимание того, какие абстрактные сущности в системе присутствуют, какие ограничения накладывает система на их использование, а также какие ограничения можно добавить со стороны разработчика, чтобы уменьшить неопределённость при выполнении кода.

Пример:

Сейчас я детально изучаю документацию по библиотеке CrewAI. Так как мне недостаточно того, что делают с ней LLM "из коробки".

Основные концепции, которых достаточно, чтобы начать работу – это Agents, Tasks, Crews, Flows, Knowledge.

Ограничения со стороны системы – это, в том числе, те best practice, которые описаны в документации. В случае с CrewAI это описание агентов в YAML-файлах, например. Если говорить про язык программирования, то там ограничения другого типа.

Самое интересное – это ограничения, которые мы можем добавить со стороны разработчика. В случае с агентами на CrewAI, это, например, callback-функции для проверки результатов и настройка Output format с помощью Pydantic.

Вывод:

Зная, что именно нам нужно получить от документации выбранного фреймворка, можно при помощи LLM собрать ключевые концепции, а также выжимку именно тех знаний, которые позволят сформировать парадигму мышления для выбранного фреймворка или языка.

p.s.: надпись на кружке – о том, как обеспечить себе приключения. Поэтому, если вам нужны приключения вместо готового продукта, можете также использовать в AI-разработке данный подход 🙂
03/31/2025, 01:03
t.me/kdoronin_blog/606
03/29/2025, 20:37
t.me/kdoronin_blog/603
03/29/2025, 20:37
t.me/kdoronin_blog/604
Про Gemini 2.5 Pro и его навыки в кодинге.

Недавно вышла модель 2.5 Pro от Google. Анонс утонул под тоннами картинок "в стиле Studio Ghibli", но нельзя же пройти мимо модели, которая на https://lmarena.ai/ даже первое место какое-то время занимала в качестве веб-разработчика (сейчас Claude 3.7 Sonnet уже вернул своё лидерство).

Достаточно давно у меня в голове существовал вопрос "А возможно ли написать программу для скачивания видео с Rutube?". Не спрашивайте, зачем. Мне надо 🙂

С этим вопросом я и пришёл к Cursor-у, предварительно переключив модель на Gemini 2.5 Pro.

Первой итерацией создал просто консольное приложение, а второй – добавил интерфейс для работы с пользователями через Telegram бота.

Меня поразило то, что Gemini написал программу, которая выполнила задачу с первого раза и без ошибок. Не было никаких конфликтов версий, ошибок в синтаксисе и прочих распространённых "болячек" кода, созданного с помощью LLM.

Плюс – качественная реализация. Приятный консольный интерфейс, отображается скорость загрузки и ETA. Также – отлично сделан handler доступных вариантов по качеству видео. Даже если нет FullHD и 720p видео, система понимает, что видео 1920x800 – это именно то, что нужно.

Какие заметил минусы:

1. Gemini начисто проигнорировал мою инструкцию, что для управления пакетами надо использовать uv, и сделал всё на базе pip.

2. Я попросил его сделать .cursorrules первым делом, но он не сумел его корректно создать. После чего – просто пошёл дальше, даже не проверив, что файл с инструкциями создан.

3. Единственное, что не предусмотрел Gemini – это ограничение Telegram для Bot API, которое не позволяет отправлять пользователю видео больше 50Мб.

Получается, такой AI-агент-анархист, который при этом делает свою работу весьма хорошо. Нюанс, правда, в том, что это всё-таки очень камерная задача. Как Gemini поведёт себя в задачах покрупнее – ещё предстоит выяснить.

p.s.: а вот Rutube меня по IP слегка подзабанил. В следующей версии скрипта надо прокси добавить 🙂
03/29/2025, 20:37
t.me/kdoronin_blog/605
В наборе must-have MCP-серверов для разработки прибыло!

Имя этому чуду "Cursor Talk to Figma MCP". Как вы понимаете, нужен он для взаимодействия из Cursor (или любого другого клиента, поддерживающего MCP) напрямую с Figma.

Схема его работы схожа с той, что была у MCP Browsertools. Есть сервер, который необходимо запустить перед работой. К нему подключается с одной стороны Cursor с командами, а с другой – плагин Figma (вместо расширения браузера у Browsertools).

Инструкции по установке достаточно подробно описаны на странице репозитория.

Есть лишь несколько моментов, которые можно отдельно добавить:

1. После установки bun, перед следующим шагом, обязательно проверьте, что bun работает без прописывания полного пути. Если нет, то надо перезапустить терминал.

2. Чтобы в Figma установить новый плагин, обязательно нужно быть администратором проекта. Иначе чуда не получится.

3. Само собой, работаем мы именно с приложением Figma. С браузерной версией работать не будет, так как плагину обязателен доступ к остальным элементам MCP локально.

Запуск после первичной установки происходит следующим образом:

1. Запускаем Websocket server в терминале.

2. Заходим в нужный Figma-макет, запускаем плагин и нажимаем Connect.

3. Выбираем нужный компонент, копируем ссылку на него через "Copy link to selection".

4. Заходим в Cursor, вставляем ссылку в чат и просим создать выделенный блок.

5. Также в чат лучше передать Channel ID, который предоставляет Figma plugin после коннекта к серверу. Так как без него Cursor может слегка заплутать.

А, да. Так-то это ещё и инструмент для дизайнеров. Позволяющий создавать макеты в Figma непосредственно из Cursor (или другого клиента с поддержкой MCP).

Вот полный список доступных для MCP инструментов: get_document_info, get_selection, get_node_info, get_nodes_info, create_rectangle, create_frame, create_text, set_fill_color, set_stroke_color, move_node, clone_node, resize_node, delete_node, get_styles, get_local_components, create_component_instance, export_node_as_image, set_corner_radius, set_text_content, join_channel.

Нюансы и недостатки, которые я выявил при работе с "Cursor Talk to Figma MCP":

1. В случае с Cursor не получится сразу сделать большую страницу за одну команду. На каком-то этапе он попробует из MCP получить все элементы внутри макета, переполнит контекст, Cursor предложит сделать саммари чата, открыв новый... В общем, процедура может продолжаться бесконечно без каких-либо результатов.

2. Он не умеет выгружать из Figma медиа-файлы. И если с иконками он честно пытается сделать "похожие" SVG (получается плохо), то картинки лучше делать сперва заглушками, а потом выгружать руками (надеюсь, что этот инструмент автор позже добавит).

3. Могут быть небольшие несоответствия макету. Но они заметны только в случае, если вам действительно требуется "Pixel-perfect". Да и до него всё равно можно достаточно легко добить после того, как с помощью MCP и Cursor собрали "приблизительно-похожую" страницу.

4. Также несоответствия макету может быть в случае, если блок у вас сложный, а вы решили его не разбивать на "простые" элементы. Тогда AI может сильно "упростить" элементы макета.

В медиа для вас записал, как я себе в Figma собрал макет личного блога (мама, я дизайнер!), а потом сделал его вёрстку. И всё это с помощью "Cursor Talk to Figma MCP".
03/28/2025, 23:23
t.me/kdoronin_blog/602
03/27/2025, 23:40
t.me/kdoronin_blog/598
Вчера, 26 марта, я отменил свою подписку на Recraft.

Потому что OpenAI выкатили инструмент, который 90% практических кейсов использования AI-генераторов изображений реализует просто через диалог в чате.

Если вы подписаны на каналы про AI, думаю, уже заметили поток генераций, где люди проверяют "А что, он и так умеет?". И, чаще всего, да. Умеет.

Напомню, доступен он нативно в веб-версии ChatGPT, если выбрать модель ChatGPT 4o. Только для платных подписчиков.

10 примеров, как можно использовать новый инструмент для генерации изображений от OpenAI:

1. Убрать фон у объекта на изображении.

2. Вырезать объект.

3. Поменять стиль изображения.

4. Перенести объекты с одного изображения на другое. Включая людей, да.

5. Сделать интеллектуальный апскейл фотографии.

6. Добавить/изменить текст на изображение.

7. Сделать из просто фотографии предмета профессиональную предметную съёмку (продавцы на маркетплейсах – всё для вас).

8. Изменить объект на фотографии, его положение или состояние, сохранив при этом консистентность (вчерашний пост построен именно на этом пункте).

9. Расширить изображение, дополнив его по сторонам.

10. Простые картинки можно сразу перевести в svg.


И немного дёгтя во всю эту переслащённую бочку:

1. Каждое изображение – это генерация с нуля. И с сохранением исходного лица, например, она справляется плохо. Поэтому на переработанной фотографии себя можно и не узнать.

2. ChatGPT вполне может начать глючить и портить ваше исходное фото. Это нормально для AI в целом.

3. Цензура и авторское право. Нейросеть может начисто отказаться создавать какой-нибудь образ, который может напоминать что-либо, защищённое авторским правом. Хоть это может быть и просто похожий образ. (выкуси, Альтман! Световой меч из так защищаемой тобой вселенной Star Wars я всё-таки сгенерировал!)

4. Помимо п.3, может даже заартачиться и не захотеть работать с изображением человека в принципе. Но ChatGPT отходчивый. Через несколько попыток передумает.

Очень жду, когда подтянутся Open Source модели, поняв, что теперь можно и так.

Какие кейсы использования нового инструмента от OpenAI вы уже попробовали?
03/27/2025, 23:40
t.me/kdoronin_blog/601
03/27/2025, 23:40
t.me/kdoronin_blog/600
03/27/2025, 23:40
t.me/kdoronin_blog/599
Кейс про создание достаточно длинных консистентных видео с озвучкой.

Само видео – в медиа поста. Смотреть, разумеется, со звуком.

Этапы работы:

1. Сгенерировал при помощи нового инструмента от OpenAI картинку по запросу "Нарисуй мне уровень в 3D-бумершутере с видом от первого лица".

2. За счёт того, что сгенерированные изображения у ChatGPT имеют с недавних пор повышенную консистентность, я подвигал персонажа по уровню и создал набор изображений.

3. Попарно, через первый и последний кадры, в Kling1.6 создал несколько 5-секундных роликов.

4. Каждый из 5-секундных роликов я озвучил через модель mmaudio-v2, которая есть у fal.ai и доступна тут.

5. После чего соединил 5-секундные ролики в один при помощи скрипта, написанного в Cursor.

У OpenAI вышел по-настоящему крутой инструмент! В ближайшее время выпущу по нему детальный практический разбор.
03/26/2025, 22:56
t.me/kdoronin_blog/597
03/25/2025, 21:25
t.me/kdoronin_blog/591
03/25/2025, 21:25
t.me/kdoronin_blog/592
03/25/2025, 21:25
t.me/kdoronin_blog/594
03/25/2025, 21:25
t.me/kdoronin_blog/595
03/25/2025, 21:25
t.me/kdoronin_blog/588
03/25/2025, 21:25
t.me/kdoronin_blog/593
03/25/2025, 21:25
t.me/kdoronin_blog/590
03/25/2025, 21:25
t.me/kdoronin_blog/587
03/25/2025, 21:25
t.me/kdoronin_blog/589
Новый генератор изображений со своей "фишкой".

Имя ему Reve. Живёт тут.

Ворвался в топ Leaderboard на Artificial Analysis.

Я уже попробовал его в задачах по text-to-image генерации. Благо они дают достаточно бесплатных токенов за регистрацию.

Есть одно преимущество, которое у генератора не отнять: он детально и достаточно дотошно следует промпту. Из 4-х изображений цветика-семицветика он с первой попытки два сделал корректно. Это очень хороший результат. Recraft давал корректный результат примерно в 5% случаев. Да и то с ухищрениями и после нескольких доработок промпта.


Минусы я отметил следующие:

1. Качество всего до 1360px по большей стороне. По сравнению с Flux1.1-pro-ultra с его 2К очень слабо.

2. Детальное следование промпту – да. Но как будто бы Ideogram и Flux умеют самостоятельно добавлять в генерацию "жизни". В случае с Reve все детали нужно прописывать самостоятельно.

Вывод: инструмент 100% найдёт своего пользователя. Так как качество генерации на уровне с остальными топовыми моделями, а ещё и следование промпту лучше, чем у многих конкурентов.
03/25/2025, 21:25
t.me/kdoronin_blog/596
03/24/2025, 22:53
t.me/kdoronin_blog/585
Базовая настройка AI-ассистента Goose. Как получить себе сообразительного AI-агента с поддержкой MCP-серверов.

Я показывал его на эфире по «AI для бизнеса», после чего получил запрос о том, что неплохо бы написать инструкцию о том, как получить себе на компьютер такого же.

Собственно, инструкция:

1. Устанавливаем по гайду отсюда Goose Desktop. Лучше иметь на компьютере MacOS или Linux. Под Windows он работает только из-под wsl (но всё равно работает).

2. Из провайдеров выбираем OpenRouter. Так как он позволяет работать с любым другим провайдером через API.

3. Если ещё нет аккаунта в OpenRouter, то заводим его здесь.

4. Далее надо пополнить счёт. Хотя бы на $10. Это можно сделать картой (российские не принимают), через криптовалюту или выбрать продавца на plati.

5. Создаём API-ключ на специальной странице. Вводим его в настройках Goose для Openrouter в поле OPENROUTER_API_KEY.

6. Выбираем модель, с которой будет работать наш агент. Я рекомендую anthropic/claude-3.7-sonnet , так как в качестве AI-агента в связке с MCP она работает лучше всего.

7. При добавлении модели в агента, сначала выбираем провайдера Openrouter, а в имя модели вставляем то, которое имеет формат company/model. В нашем случае это anthropic/claude-3.7-sonnet.

8. У Goose есть свой стандартный список расширений (инструментов) для AI-агента, который находится тут. Их можно установить через кнопку "Install" прямо из браузера.

9. В окне с чатом в левом-нижнем углу нужно выбрать папку, в которой AI-агент будет работать. Чтобы он в системные папки не грузил свои документы.

10. Открываем чат с агентом и начинаем диалог.


Дополнительно:

1. Если завести аккаунт на https://tavily.com/ , то можно получить API-ключ (без ввода карточки) и использовать его с соответствующим инструментом для поиска. 1000 запросов в месяц на бесплатном тарифе.

2. По-умолчанию в Goose есть инструмент Memory. Он позволяет хранить данные в постоянной памяти. Также он умеет их распределять по категориям.

3. Goose умеет писать программы и сам их запускает. Так он решает вопросы сложных автоматизаций, которые не получается выполнить имеющимися инструментами.

Пробовали ли вы использовать Goose? Или ваш AI-ассистент работает на базе другого фреймворка?
03/24/2025, 22:53
t.me/kdoronin_blog/586
03/24/2025, 22:53
t.me/kdoronin_blog/580
03/24/2025, 22:53
t.me/kdoronin_blog/581
03/24/2025, 22:53
t.me/kdoronin_blog/583
03/24/2025, 22:53
t.me/kdoronin_blog/584
03/24/2025, 22:53
t.me/kdoronin_blog/582
Ключевые концепции, позволяющие AI-агентам (и их сетям) решать задачи эффективнее, чем стандартный чат с LLM.

90% эффективности AI-агента заключается в следующих его настройках:

1. Правильно выбранная "роль" для агента и формирование его целей.

2. Управление памятью. Для агента нужно организовать, как минимум, оперативную, постоянную и объектную виды памяти. Первая – содержит самую актуальную информацию и существует в контексте модели, вторая хранится в базе данных или на сервере, а третья является списком существующих в постоянной памяти объектов, чтобы агент по ним мог обращаться в постоянную память.

3. Эффективные инструменты. Для формирования памяти либо выполнения действий, способствующих достижению цели.

Как при этом узнать, что система работает корректно?

Нужен набор входных параметров и возможность оценить то, что агент даёт на выходе (очень хорошо, если он выполняет детерменированную задачу). Через оценку того, где именно ошибается агент, перерабатывать входные параметры, роль и цели.

Механика тестов AI-агентов чем-то похожа на механику формирования эффективного промпта в LLM. Только параметров чуть больше.

Все улучшения сводятся к тому, что мы ограничиваем для AI-агента всевозможные действия, которые мешают достичь корректного результата.

p.s.: Фотография в стиле "Найди кота" или "Сфотографируй, как мы красиво идём в этом ущелье». 🙂
03/24/2025, 00:03
t.me/kdoronin_blog/578
03/22/2025, 22:21
t.me/kdoronin_blog/576
❇️ КОНЦЕНТРАТ. ЧАСТЬ 2

Сегодня собрал для вас посты, которые выходили про технологию Deep Research. Заодно составил свой личный топ компаний, её предлагающих.


Полезные материалы, чтобы использовать Deep Research эффективнее:

1. Общая информация про использование технологии

2. Как правильно составить запрос в Deep Research

3. Как получить доступ к Perplexity Pro на год за $10 (или даже меньше)


Топ компаний, предоставляющих технологию Deep Research (со ссылками на соответствующие посты):

1. OpenAI. Он настолько хорош, что по его сценарию Ваня даже снял ролик для канала. Сам ролик можете посмотреть тут.

2. Perplexity.

3. Google.

4. Grok.


Ещё один полезный сборник, который нужно, как минимум, сохранить в "Избранное", а как максимум – разослать друзьям 🙂
03/21/2025, 19:58
t.me/kdoronin_blog/574
Соскучились по эфирам? 🙂

Напоминаю, что сегодня, 20 марта, в 20:00 мск состоится эфир «Куда инвестировать, чтобы выиграть от "революции" AI», который мы проведём вместе с @apozharenko, автором канала Финансист с велосипедом .

Для того, чтобы попасть на этот эфир, напишите в личные сообщения сюда: @apozharenko

UPD: записи данного эфира не будет. Доступ только в режиме реального времени.
03/20/2025, 11:28
t.me/kdoronin_blog/573
Запись эфира "ИИ для бизнеса".

Эфир вели:

- Советник управленца Алексей Горностаев

- ИИ-амбассадор Константин Доронин

Костя обещал в своем канале выложить полезные ссылки и материалы по итогам эфира. Подписывайтесь, чтобы не пропустить.
03/19/2025, 15:24
t.me/kdoronin_blog/572
Мы начинаем эфир!

Подключайтесь по ссылке: https://gornostaevpro.ktalk.ru/k1nou9ik35ct
03/19/2025, 13:57
t.me/kdoronin_blog/571
Старт эфира «AI для бизнеса» уже через час!

Ссылка для подключения: https://gornostaevpro.ktalk.ru/k1nou9ik35ct
03/19/2025, 12:58
t.me/kdoronin_blog/570
Эфир по Искусственному интеллекту для бизнеса

Завтра совместно с Алексеем Горностаевым, автором канала "Советник управленца", мы проведём эфир.

Участие бесплатное (без смс и регистрации 🙂), подключиться можно будет по ссылке:
https://gornostaevpro.ktalk.ru/k1nou9ik35c
t

Поговорим о практическом применении ИИ в малом бизнесе. 

В формате живой дискуссии обсудим:

🟢Где ИИ уже доказал свою эффективность в торговом бизнесе и eCommerce и доказал ли вообще где-то? Или все упирается в создание текстов для посадочных страниц и креативов для баннеров и рекламы?

🟢Какие задачи в ритейле и онлайн-торговле пока плохо решаются ИИ и еще долго будут плохо решаться?

🟢Как бизнесу определить, какие процессы стоит автоматизировать с помощью ИИ, а какие нет?

🟢Что предприниматели чаще всего недооценивают, когда говорят про внедрение ИИ?

🟢Правда ли, что чат-боты на ИИ могут заменить живых операторов в клиентском сервисе? В каких случаях это реально работает и сколько надо денег/времени, чтобы поднять свою собственную RAG-систему?

🟢Можно ли внедрить ИИ на сайт так, чтобы каждый посетитель видел уникальный текст под себя?

🟢Насколько ИИ эффективен в прогнозировании оттока клиентов? Как его использовать для удержания?

🟢Есть ли ИИ-решения, которые помогают в прогнозировании спроса и оптимизации закупок на основании данных CRM или 1С? Есть ли примеры успешного внедрения?

🟢Есть ли практическая польза от ИИ в управлении товарными остатками? Чтобы не затоваривать склад лишним товаром и при этом не быть в дефиците? 

🟢Какие юридические ограничения по использованию ИИ в торговле есть сейчас или могут появиться?


Дата эфира: 19 марта 2025

Время: 14:00 мск

Ссылка для подключения: https://gornostaevpro.ktalk.ru/k1nou9ik35ct
03/18/2025, 16:35
t.me/kdoronin_blog/569
03/17/2025, 21:25
t.me/kdoronin_blog/568
Deep Research от Google и его сравнение с конкурентами.

Если раньше был тренд на reasoning-модели, то сейчас, судя по всему, каждая уважающая себя компания обязана сделать AI-агента для проведения глубоких исследований.

Как будто бы у Google должно быть преимущество в этой задаче, поскольку они могут более нативно получать данные из YouTube и поиска (ох уж эти монополисты).

Инструмент на данный момент бесплатный и доступен по ссылке. Среди моделей в левом-верхнем углу экрана нужно выбрать "Deep Research" и можно приступать к работе.

Я использовал такие же промпты, как в постах про Grok, Perplexity и OpenAI (которому, напомню, потребовался всего один запрос, так как он задаёт доп. вопросы перед стартом исследования).

Результаты исследования можете прочитать тут: базовый и со стилем Вани. Разница при взаимодействии с Gemini в том, что после второго запроса они почему-то выдали мне документ под названием «Адаптация сценария под стиль Вани» с рекомендациями о том, что же мне делать с исходным сценарием. Поэтом пришлось делать дополнительный запрос, чтобы получить именно сценарий.

Сам сценарий, по моему мнению, получился весьма посредственным. Каких-то необычных свежих мыслей в нём нет. Структура тоже не лучшая.

Из всех моделей с Deep Research, которые я тестировал на этой задаче на текущий момент, Gemini смог обогнать, разве что, Grok. Потому что тот ещё и в стиль конкретного автора не попал из-за кривой реализации поиска.

Но тут есть нюанс. Я не готовил специально промпт, как, например, описывал в этом посте. И есть ощущение, что правильно приготовленный запрос в Gemini может дать свои плоды и существенно улучшить результат.

Мне очень понравилось, как Gemini форматирует ответ, показывая в конкретных абзацах используемые для написания источники.

Также хорошая идея с делением списка источников на "используемые при написании статьи" и "не используемые при написании статьи". В отличие от Grok, который выводит просто (громадный) список.

Само собой, у Gemini отлично работает поиск информации по индексу. На то он и Google.

Также есть кнопка, позволяющая в один клик сформировать из ответа Google Doc. Удобно.

Вывод: Gemini имеет отличную реализацию работы с поиском и хорошо оптимизированное извлечение информации из документов. Но над агентской частью, которая выстраивает план и следует ему, а также формирует текст ответа, стоит ещё поработать. Полагаю, что оператору, чтобы получить качественный ответ, стоит дополнительно углубиться в вопрос правильной постановки задачи.

Скажите, пробовали ли вы уже Deep Research от Gemini? Если да, то какое впечатление на вас произвёл данный инструмент?
03/16/2025, 22:55
t.me/kdoronin_blog/567
03/15/2025, 22:22
t.me/kdoronin_blog/564
Немного про Wan Effects.

Помните, в посте про Wan я говорил, в том числе, о том, что появится большое количество кастомизаций?

Всё так и происходит. Уже появилось множество LoRA под эту модель, которые позволяют, например, генерировать FullHD-видео вместо стандартного 720p.

Сегодня – про Wan Effects.

Если следите за рынком AI-видео, то, скорее всего, вы натыкались на видео от Pika labs, на которых с предметами на видео происходят всякие вирусные метаморфозы.

По ссылке на сайте fal.ai можно создавать аналогичные эффекты при помощи LoRA для Wan.

Доступно на выбор целых 25 эффектов!

Важно: выбирайте входную фотографию 16:9 или 9:16. Так её не будет плющить в пропорциях.

Некоторые из доступных эффектов – в медиа поста. Если захотите попробовать что-то ещё – скиньте свои генерации в комментарии 🙂

Занимательный факт: изначально fal.ai загрузили вместо Wan Effects модель под названием Wan LoRA. И можно было по URL загружать LoRA с Huggingface, например. Думаю, из-за потока NSFW лавочку решили достаточно быстро прикрыть 🙂
03/15/2025, 22:22
t.me/kdoronin_blog/566
03/15/2025, 22:22
t.me/kdoronin_blog/565
03/14/2025, 20:40
t.me/kdoronin_blog/562
Видели эти бесконечные комментарии от AI в крупных каналах? Те самые, которые своими формулировками вызывают испанский стыд.

Я самые "умные" из них даже приложу в медиа поста. Те, которые были чуть умнее стандартных и поэтому попали в мой "Музей развития AI-спама" 🙂

На самом деле задача написать "похожий на человека AI-комментарий" не так проста, как кажется на первый взгляд, и содержит в себе несколько уровней:

1. Семантический. Если вы желаете писать от своего имени, то неплохо бы было, чтобы нейросеть использовала ваш индивидуальный стиль. Берём просто тексты, которые вы написали за какой-то длительный период и дообучаем LLM писать, соблюдая ваш стиль.

2. Структурный. Вы ведь ещё и сам текст собираете как-то по-своему. Разбиваете на абзацы определённым образом, используете списки, цитаты. И это может выходить за рамки семантики. Плюс – структуру AI копирует чуть хуже. Нужно отдельно дообучить его для лучшего формирования структуры.

3. Информационный. Откуда-то именно ваши знания надо брать. Примерно те же тексты, что в п.1, но теперь из них надо получать информацию на ту или иную тему. И с учётом этой информации формировать текст.

4. Контекстный. Ваша нейросеть, которая по первым трём пунктам может собирать достаточно высокого уровня посты, не напишет человекоподобный комментарий. Потому что комментарий по своей сути отличается от поста. Так как, фактически, комментарий – это диалог с автором поста. Помимо вашей базы знаний из п.3, комментарий содержит контекст родительского поста. Зачастую, данные о предыдущих комментариях также должны попадать в контекст.

5. Логический. Здесь больше про то, как ведёт себя человек, комментируя посты. Как правило, он выбирает одну мысль, которая его "зацепила", обрабатывает её и пишет комментарий с использованием собственного, не всегда информационного (но и эмоционального, к примеру), контекста. Нейросети по-умолчанию ведут себя иначе. Они пытаются использовать весь контекст поста. Поэтому даже небольшой комментарий они пишут сразу по всему посту. Подход абсолютно разный. И LLM необходимо донастроить, чтобы она ушла от привычных паттернов.

Всё это мы накопали за время очень интересного созвона с Феликсом Шапиро. Помимо разговора про LLM-комментарии, обсудили также идеи относительно разработки ПО с помощью AI.

К чему я это? Хотите поговорить про AI – напишите мне. Договоримся о времени созвона и точно принесём друг-другу пользы. Заодно получше познакомимся 🙂
03/14/2025, 20:40
t.me/kdoronin_blog/563
Куда инвестировать, чтобы выиграть от "революции" AI

Предлагаю собраться в режиме онлайн и обсудить темы на стыке финансов и AI. Встреча пройдёт в формате панельной дискуссии. Разберём конкретные компании и способы инвестирования в них.

Спикеры:

📌 Искусственный интеллект и технологии @kdoronin
Как использовать AI-инструменты для бизнеса и жизни? Обзоры актуальных сервисов и технологий, которые помогают решать прикладные задачи.

� Финансист с велосипедом – @apozharenko
Разбор реальных кейсов по инвестициям в Европе и управлению деньгами.

⌚ ЧТ 20.03, в 18:00 по Варшаве, 19:00 по Вильнюсу, 20:00 по Москве и 21:00 по ОАЭ

👉 Для добавления вас к звонку пришлите вашу почту в личку @apozharenko
03/14/2025, 00:00
t.me/kdoronin_blog/561
03/12/2025, 23:24
t.me/kdoronin_blog/557
03/12/2025, 23:24
t.me/kdoronin_blog/553
03/12/2025, 23:24
t.me/kdoronin_blog/554
03/12/2025, 23:24
t.me/kdoronin_blog/559
03/12/2025, 23:24
t.me/kdoronin_blog/556
03/12/2025, 23:24
t.me/kdoronin_blog/555
03/12/2025, 23:24
t.me/kdoronin_blog/558
Появилось image-to-video от veo2 на fal.ai. Похоже, что произошёл Sora-момент.

Помните, как OpenAI с помпой рассказывали о своей новой AI-video-модели, которая должна была порвать рынок?

Не сложилось.

Спустя некоторое время, тем же самым занялись ребята из Google. Рассказывали про свою Veo2.

И опять интернет-сообщество часто верило этому маркетингу.

Сегодня я проверил за вас image-to-video от Veo2. На fal.ai каждая генерация – от $2.5 до $4. Минимум на счёте нужно иметь $5.

Для сравнения залил видео от Kling по тем же входным данным (у них есть watermark).

И вот что я вам скажу. Лучше эти деньги на подписку в Kling потратить. Там видео куда как предсказуемее. Особенно в сложных задачах с движением.

Возможно, у кого-то в комментариях найдутся кейсы, где Veo2 показывает себя настолько лучше, что действительно есть смысл отдавать по $2.5 за видео. Было бы интересно почитать.
03/12/2025, 23:24
t.me/kdoronin_blog/560
Онлайн-инструмент для быстрого преобразования REST API в инструменты для MCP-сервера.

Находится тут: https://mcpcreator.com/

1. Создаём проект.

2. Заполняем переменные окружения, если необходимо.

3. Добавляем туда все необходимые endpoints и заполняем поля (на скриншоте в медиа поста).

4. Обязательно выполняем запрос, чтобы сгенерировать схему данных, которую мы ожидаем получить.

5. Сохраняем endpoint.

6. Когда собрали все нужные endpoint-ы, скачиваем проект через download server.

На выходе получаем ts-проект, который соответствует всем спецификациям MCP и готов к работе.

Всё абсолютно бесплатно и позволяет не разбираться со всеми MCP-правилами.
03/11/2025, 22:07
t.me/kdoronin_blog/552
03/11/2025, 01:43
t.me/kdoronin_blog/548
03/11/2025, 01:43
t.me/kdoronin_blog/550
Search results are limited to 100 messages.
Some features are available to premium users only.
You need to buy subscription to use them.
Filter
Message type
Similar message chronology:
Newest first
Similar messages not found
Messages
Find similar avatars
Channels 0
High
Title
Subscribers
No results match your search criteria