Telegram channel page: The AI Architect Blog • @the_ai_architect

Your trial period has ended!

For full access to functionality, please pay for a premium subscription

The AI Architect Blog

https://t.me/the_ai_architect

Channel age

Created

Language

Russian

ER (week)

40.71%

ERR (week)

Делюсь своим опытом в разработке и использования AI решений Моя визитка: https://t.me/timur_khakhalev/2

Messages Statistics

Top categories

Main categories of messages will appear here.

Top mentions

The most frequent mentions of people, organizations and places appear here.

Found 29 results

The AI Architect Blog

334 subscribers

136

Хорошая идея использования AI Chatbot как площадки для поиска И проверки идей для продукта: https://t.me/llm_under_hood/561

04/24/2025, 18:56

t.me/the_ai_architect/63

The AI Architect Blog

334 subscribers

210

Годноту раздают здесь:

https://t.me/nobilix/50

Тут в том числе есть промик на Upstash – это очень классное serverless решение для пользования Redis (и еще несколько сервисов у них есть, пока не пользовался).

В каждом своем проекте с LLM я использую Redis (как раз у Upstash) для сохранения запросов к LLM в кэш, это очень полезно при разработке – экономит и время и деньги на при отклаживании промптов и системы в целом

04/23/2025, 23:30

t.me/the_ai_architect/62

The AI Architect Blog

334 subscribers

558

Классический роадмап с фичами убьёт твой AI-проект

Я прочитал статью Hamel Husain (я уже несколько раз писал посты по его материалам).

Статья про подход к разработке продуктов с использованием AI. И вот, чем я хотел бы поделиться:

Традиционные роадмапы с датами релиза фич не работают в AI.

Команды обещают "запустить анализ настроений к Q2" или "внедрить агентов поддержки до конца года", а потом обнаруживают, что технология просто не готова. Результат? Либо выпускают дерьмо, либо срывают сроки. В обоих случаях — потеря доверия.

Корень проблемы: классические роадмапы исходят из допущения, что мы знаем что возможно. В обычном софте так и есть. В AI, особенно на острие технологий, ты постоянно проверяешь границы возможного.

Почему AI-продукты требуют экспериментов, а не фич в роадмапе

Традиционные роадмапы с датами релиза фич катастрофически проваливаются в AI-проектах. Причина проста — они предполагают, что мы знаем что возможно, а с AI это часто не так.

Ключевые инсайты:
1. В AI ты постоянно проверяешь границы возможного, а не просто строишь заранее спроектированные фичи.

2. "Capability funnel" — альтернативный подход, который разбивает AI-производительность на уровни полезности от базовой функциональности до полного решения задачи пользователя.

3. Лучшие команды строят роадмапы вокруг экспериментов, а не фич. Они:
- Ограничивают время на исследование
- Устанавливают чёткие точки принятия решений
- Доказывают жизнеспособность перед полной реализацией

4. Инфраструктура для оценки — краеугольный камень. Пример GitHub Copilot: команда сначала построила систему, которая могла тестировать автодополнения кода против огромного корпуса репозиториев.

5. Коммуникация со стейкхолдерами:
Боссы хотят даты релизов, но с AI это бред. Не обещай фичи — обещай эксперименты с жёсткими дедлайнами и чёткими точками решений. Используй Capability funnel — это просто разбивка прогресса на стадии от "базовая функциональность" до "полностью решает задачу". Так руководство видит движение, даже когда финальное решение не готово.

6. Культура экспериментирования включает открытое обсуждение провалов:
- "fifteen-five" — еженедельные обновления (15 минут на написание, 5 на чтение)
- Регулярные сессии обмена опытом без подготовки
- Нормализация неудач как части обучения

Ключевой метрикой для AI роадмапов должно быть количество проведенных экспериментов, а не выпущенных фич. Побеждают команды, которые быстрее экспериментируют, учатся и итерируют.

---

Я согласен с Hamel – при разработке с использованием cutting edge technologies важно установить правильные ожидания и понимать, что нужно много рисерчить и экспериментировать, в моём опыте такое тоже бывает, когда ты ожидаешь, что задачу с парсингом pdf на 500 страниц решить - пара дней, а выливается это в итоге в несколько недель рабочих часов и нарушенные обещания для клиента.

Но когда принимаешь, что тебе приходится проводить эксперименты, то дело идёт в гору.

Далее, в комментах добавлю основные инсайты из статьи, особенно мне понравилась идея про синтетические данные в качестве input в ваших продуктах, которая, казалось бы, довольно очевидна, но не все ею пользуются

04/08/2025, 16:44

t.me/the_ai_architect/61

The AI Architect Blog

334 subscribers

211

Мой плагин для FigJam опубликовали

https://www.figma.com/community/plugin/1490654577588079169/figjam-text-export

Кому нужно – пользуйтесь 🙂

Баг репорты можно слать в комменты

04/08/2025, 13:58

t.me/the_ai_architect/60

The AI Architect Blog

334 subscribers

375

Обновился Fiction LiveBench
(Этот бенчмарк показывает то, насколько хорошо модель держит контекст на разном количестве токенов)
📱 Ссылка

Основные выводы
• o1 и Claude Sonnet 3.7-thinking демонстрируют хорошие результаты. Они сохраняют высокую точность в течение значительного времени, однако для наших целей их точность всё ещё недостаточна для надёжного использования в написании реальных текстов.
• DeepSeek-r1 значительно превосходит o3-mini и является отличным выбором для пользователей, ориентированных на экономию бюджета. Версия без «рассуждений» резко теряет качество при увеличении длины контекста.
• GPT-4.5-preview — лучшая модель без поддержки рассуждений, уверенно превосходит конкурентов.
• Google Gemini 2.5 Pro теперь является однозначным лидером (SOTA). Это первый случай, когда большая языковая модель (LLM) может быть потенциально использована для работы с длинным контекстом. Сейчас интересно протестировать её на ещё более длинных контекстах.
• Gemma-3 показывает слабые результаты на данном тесте.
• Anthropic Sonnet-3.7 значительно улучшена по сравнению с версией 3.5. Вариант «thinking» использует 8000 токенов на «рассуждения», чего должно быть достаточно для простой логики.
• Jamba сразу же показывает результат ниже 50%, но дальнейшее снижение незначительно.
• Qwen-max хороша в рамках небольших контекстов, для которых у нас есть данные. Версия qwq превосходна и лучше, чем R1.
• Llama 4 разочаровывает. Maverick не превосходит уже ниже среднего уровня Llama 3.3 70b, а Scout показывает откровенно плохие результаты.

04/07/2025, 08:35

t.me/the_ai_architect/59

The AI Architect Blog

334 subscribers

231

Исследование интересное только очкарикам 🤓

Я ношу очки вот уже около 18 лет, примерно с 10-12 лет, на данный момент у меня близорукость -4 – -4.8. На днях я планирую менять очки и прошёл диагностику зрения в оптике, мне выписали рецепт, и во время диагностики зашла речь о полной коррекции зрения очками или не полной.

Я вспомнил, что в моём детстве, когда мне подбирали очки (примерно в возрасте 15-17 лет), мне их выписывали с учётом того, что очки будут давать не полную коррекцию зрения (т. е. в очках я буду видеть не на 100% как здоровый человек, а, скажем, на 80%-90%). Якобы это объяснялось тем, что мои глаза должны как то сами тренироваться и скорость деградации зрения снизится или прекратится или даже зрение вернётся в норму.

Так вот, для меня было открытием узнать, что эта теория на данный момент не подтвердилась и сейчас большинство врачей стараются подбирать очки, которые дают 100% коррекцию зрения.

Мне стало интересно применить здесь OpenAI Deep Research и почитать мнение учёных на этот счёт.

Вот сам отчёт: https://teletype.in/@timur_khakhalev/iOFTScrMgQR

Вот оригинал рисёрча, если нужны ссылки на источники: https://chatgpt.com/share/67eef057-cd00-8009-b608-4500a22255b4

Я забыл что диприсерч надо попросить не повторять одну и ту же мысль несколько раз и пытался заставить его переписать отчёт без воды и повторений, но он ломал всю структуру и я забил на это, так что сорян за лишнюю воду в отчёте 🥸

Вот TLDR и основная мысль, текст сгенерил Claude по моему отчёту:

TLDR

Полная оптическая коррекция превосходит частичную по качеству зрения и комфорту. Недокоррекция не замедляет прогрессирование близорукости. Все ведущие офтальмологические организации рекомендуют полную коррекцию в большинстве случаев.

Основная мысль

Полная коррекция зрения обеспечивает оптимальную остроту, комфорт и предотвращает астенопию, в то время как недокоррекция не имеет доказанных преимуществ и может усугублять проблемы. Частичная коррекция оправдана только в ограниченных случаях (детская гиперметропия без косоглазия, период адаптации к сильным очкам).

Интересно будет обсудить это мнение с очкариками, так что велком в комменты 😊

04/06/2025, 15:34

t.me/the_ai_architect/58

The AI Architect Blog

334 subscribers

236

Навайбил FigJam плагин

Мне очень нравится FigJam для того чтобы описывать там свои заметки, схемы, планы, и т. д. Несколько раз я сталкивался с такой проблемой, что в FigJam сложно экспортировать текст из созданных блоков. Если просто выделить блоки и нажать Ctrl+C, то текст копируется сплошняком без переносов.
Я поискал плагины в интернете. Казалось бы, простейшая фича, которая должна быть по дефолту в приложении, но разработчики Figma её не завезли (экспортнуть можно только в виде картинок или pdf), а коммьюнити сделали плагины только под Figma, не под FigJam.

Ладно, придётся сделать самому..

Для начала, спросил Клод о том, насколько сложно написать свой плагин — на что он мне сразу выдал бойлерплейт код и кратко описал как и что нужно. Далее я пошёл в Cursor и начал с того, что расписал план работ:
- попросил Gemini 2.5 pro обдумать мою идею и сгенерить таски в md файлы
- взял Claude Sonnet 3.7 в роли исполнителя и нагенерил код
- UI открывается, но кнопки не работают. Теперь в течение получаса дебажил проблему с Gemini 2.5 pro и Claude Sonnet 3.7 на пару, порешали проблему
- В процессе генерации я узнал, что Figma может самостоятельно сгенерить темплейт проекта для плагина 😄 и ещё больше упростить мою жизнь
- Ок, воспользовался таким темплетом, переписали весь функционал в темплейт — всё чётко работает, ура!
- Нашлёпал скриншотов
- Сгенерил иконку с ChatGPT 4o
- Поковырялся с Figma и Photoshop чтобы красиво вырезать, вставить иконку и закрасить фон
- Заполнил форму для публикации и отправил

Теперь ждём 5-10 дней и смогу поделиться плагином!

Вот за что я люблю текущие AI инструменты!

Скриншот с UI приложу в комменты

UPD: опубликовали

04/06/2025, 13:47

t.me/the_ai_architect/57

The AI Architect Blog

334 subscribers

Repost

183

Наныли: o3 таки выпустят, и даже... o4-mini! (🥺 вот бы ещё o3 pro...)

К другим новостям: GPT-5 всё ещё на горизонте нескольких месяцев, хоть компания и «сможет сделать её даже лучше, чем изначально предполагали»

А ещё на OpenRouter появилась загадочная модель, выдающая 130 токенов в секунду (быстрая), говорящая, что она от OpenAI и поддерживающая миллион токенов контекста. Уж не o4-mini ли это?

04/04/2025, 17:48

t.me/the_ai_architect/56

The AI Architect Blog

334 subscribers

614

Тут после выхода Gemini 2.5 Pro обновился Fiction LiveBench

Этот тест показывает, насколько хорошо llm держит контекст и не забывает его. Все же знают, что даже если у llm контекстное окно в 128k tokens, то большая вероятность что на таком объёме llm может забыть информацию?

И вот перевод основных инсайтов от автора:

Ключевые выводы:
• o1 и Claude Sonnet 3.7-thinking показывают сильные результаты. Они сохраняют высокую точность на протяжении значительного времени, однако для наших целей они всё ещё недостаточно точны для надёжного написания текстов в реальных условиях.
• DeepSeek-r1 значительно превосходит o3-mini и является отличным вариантом для пользователей, чувствительных к цене. Версия без thinking резко теряет точность при увеличении длины контекста.
• GPT-4.5-preview — лучшая модель без механизма рассуждений, опережающая конкурентов.
• Google Gemini 2.5 Pro сейчас явно занимает лидирующую позицию (SOTA). Впервые появилась модель, потенциально пригодная для написания текстов с длинным контекстом. Есть интерес протестировать её с бо́льшими размерами контекста.
• Gemma-3 показала слабые результаты в этом тесте.
• Anthropic Sonnet-3.7 значительно улучшена по сравнению с версией 3.5. Версия с механизмом рассуждений (thinking) использует 8000 токенов на рассуждения, чего должно быть достаточно, поскольку логика простая.
• Jamba сразу показывает результаты ниже 50%, но дальнейшее снижение точности незначительно.
• Qwen-max хорошо справляется на небольших окнах контекста, где имеются данные. qwq также показывает отличные результаты, превосходя R1.

03/26/2025, 19:17

t.me/the_ai_architect/55

The AI Architect Blog

334 subscribers

296

03/25/2025, 23:08

t.me/the_ai_architect/53

The AI Architect Blog

334 subscribers

296

OpenAI обновили генератор изображений

Вот что он умеет. На второй картинке — запрос в Gemini, у которого тоже обновили генератор картинок неделю назад. Качество тоже кайф, но задачу понял по своему.

Люблю конкуренцию среди крупных игроков рынка

03/25/2025, 23:08

t.me/the_ai_architect/54

The AI Architect Blog

334 subscribers

301

Claude Deep Research WIP 🌚

https://fixupx.com/btibor91/status/1904206595229130886

03/24/2025, 19:23

t.me/the_ai_architect/51

The AI Architect Blog

334 subscribers

273

Anthropic рассказали про подход Chain Of Thought + Structured Output

Anthropic запустили новый хаб да, они очень любят блоги для программеров и первая статья — про подход SO + CoT, который многим уже знаком (особенно подписчикам канала Рината)

Для себя я не увидел здесь чего-то нового, и вообще, тут предлагается схема с общим промптом "подумай хорошо и напиши свои размышления", а ещё, здесь используется старый (по меркам развития llm development) tool use, вместо современного structured output, но в целом, хорошо. Как всегда, хорошая статья, которую можно будет показывать новичкам.

Да, OpenAI в своей документации по Structured Outputs уже давно писали про поход Chain Of Thoughts, но здесь Anthropic добавили ещё красивые графики, на которых Chain Of Thought (они назвали это Think + Prompt) показывает более лучшие результаты, чем даже Thinking mode.

03/23/2025, 11:27

t.me/the_ai_architect/50

The AI Architect Blog

334 subscribers

208

Интеграция Claude с Ableton через MCP

Ну это ваще прям, огонь.
Дело моргенштерна растёт 📈, теперь можно сделать трек за 1 минуту

https://fixupx.com/sidahuj/status/1902719460278198658?s=46

03/22/2025, 15:19

t.me/the_ai_architect/49

The AI Architect Blog

334 subscribers

161

03/22/2025, 10:46

t.me/the_ai_architect/48

The AI Architect Blog

334 subscribers

164

Хочу сделать рисерч-сравнение на Deep Research рынок тулов

Пока что думаю над темой рисерча, по которому можно было бы сравнить качество тулов. У кого-нибудь есть идеи?

Есть ли у вас какие нибудь гипотезы, вопросы, по этой теме, которые хотелось бы проверить?

Так же, расскажите про ваши любимые Deep Research тулы, расскажите про ваш опыт использования 👇

03/21/2025, 17:57

t.me/the_ai_architect/47

The AI Architect Blog

334 subscribers

176

Почему Anthropic тормозит с релизами: стратегия-2025

Вот и дождались — Anthropic вчера наконец выпустили web search. После релиза Claude 3.7 Sonnet и Claude Code месяц назад, это выглядит как очередной шаг в их неторопливой стратегии. Меня давно интересует, почему компания систематически выкатывает фичи с таким опозданием. Вот мои мысли.

🧩 Почему Anthropic медленно выкатывают обновления:

1. 🔒 Safety-first подход

- Anthropic известны своим акцентом на AI safety, что значительно удлиняет цикл разработки
- Каждая фича проходит детальную проверку на соответствие высоким стандартам безопасности
- Это видно из их активного участия в разработке политики регулирования AI

Безопасность для них явно важнее скорости — и это не просто маркетинг, они реально вовлечены в разработку AI-регулирования на уровне правительства.

2. 🏢 Enterprise в приоритете

- Enterprise-продукты требуют более тщательного подхода и строгого комплаенса
- Anthropic активно конкурирует именно на enterprise рынке (особенно с API Claude 3.5 Sonnet)
- Задержки с функциями вроде Web Search связаны с дополнительными проверками для крупных клиентов

В отличие от OpenAI, фокус Anthropic смещён в сторону бизнес-клиентов. Корпоративные решения требуют больше проверок и интеграций, что сказывается на скорости релизов потребительских фич.

3. 📐 Консерватизм в разработке

Упорное нежелание внедрять structured output, когда вся индустрия уже год как перешла на этот стандарт — показательный пример. Даже Google сдался и делает OpenAI-compatible SDK, а Anthropic всё ещё советует в использовать в промптах XML теги.

4. 🧪 Дефицит ресурсов

- Несмотря на оценку в $61.5B и недавнее привлечение $3.5B, ресурсы Anthropic всё ещё меньше, чем у OpenAI или DeepMind
- Вынуждены расставлять приоритеты, ставя качество выше скорости
- Команда фокусируется на меньшем числе функций, но более глубоко проработанных

Приходится фокусироваться на ключевых направлениях, и при этом у них периодически случаются проблемы с серверами в пиковые часы.

5. 🎯 Ставка на регуляторы и госконтракты

Интересный момент: Anthropic активно лоббируют санкции против китайских конкурентов в AI-сфере. Просили правительство США ужесточить ограничения на экспорт AI-технологий в Китай. Расчёт простой — если твои модели самые "safety", а конкурентов ограничили санкциями, рынок будет твоим.

⸻

Выход web search сегодня — шаг в правильном направлении. Посмотрим, ускорится ли темп релизов или компания продолжит придерживаться своей осторожной стратегии. Лично я считаю, что в долгосрочной перспективе такой подход может оказаться выигрышным, особенно если регулирование AI действительно ужесточится.

А что думаете вы? Стоит ли жертвовать скоростью ради безопасности и надёжности?

03/21/2025, 08:27

t.me/the_ai_architect/46

The AI Architect Blog

334 subscribers

178

Anthropic наконец то выпустили Web Search

https://www.anthropic.com/news/web-search

Пока что доступно только в US, позже обещают открыть для всех.

Работает, если использовать VPN с американским IP адресом.

UPD: В Claude Code тоже добавили:
https://fixupx.com/_catwu/status/1902785538534543604

Так что в скором времени ждём в API

UPD2: Открывать ссылки Claude всё еще не умеет 🙈

03/20/2025, 20:24

t.me/the_ai_architect/45

The AI Architect Blog

334 subscribers

331

Программисты ещё не всё!

Я наткнулся на твит Andrew Ng (co-founder of Coursera), который размышляет о том, заменит ли AI программистов в будущем?

Сегодня мы видим, что отовсюду разные люди говорят о том, что вот-вот уже программистов заменит AI, и зачем вы тогда будете нужны?

Andrew делает вывод, что по мере того как программировать становится проще, всё больше людей должны программировать, а не меньше!

В 1960-х годах, когда программирование перешло от перфокарт к клавиатурам с терминалами, программировать стало проще.

С каждым разом, когда порог входа в программирование уменьшался, в эту сферу стало попадать всё больше людей и продуктов стало появляться всё больше.

Моё мнение

Я верю в то, что AI поможет упростить порог входа в программирование ещё больше. Да, возможно мы увидим больше смешных мемов о том, как домохозяйка пытается напрограммировать себе веб-сервер, но не может разобраться с тем, как устроена файловая система на компьютере 😄 И это нормально!

Andrew Ng приводит в примере случай, когда для его курса ему нужно было сгенерить картинки и он попросил сделать это своего коллегу, который владел языком искусства. Andrew говорит, что результаты получились потрясающими и он не смог повторить такого же, потому что не владел необходимыми терминами!

Так и со всем остальным! Мы, как программисты, в большинстве своём, мало в чём разбираемся, кроме как в компуктерах, поэтому приток новых людей из разных сфер поможет взглянуть на существующие проблемы под другим углом и решить их на раз-два.

Так же, это поможет создать новые продукты на рынке.

Резюмируя, хочу сказать, что воспринимайте AI как экзоскелет для человека пока не наступил AGI

Да, те люди, которые отвергают использование AI в работе, могут её лишиться, если, конечно, не обладают уникальными навыками.

⬆️
Я выступаю ЗА распространение AI среди всех людей.
Я ЗА повсеместное использование AI.

Мне очень нравится тот факт, что песок (один из компонентов процессоров) наконец-то заговорил!

Bonus: попросил GPT 4.5 придумать несколько шуток про песок в данном контексте

Вот еще пять вариантов продолжения шутки:

1. Песок начал задавать вопросы, почему его братья загорают на пляже, а он сутками пашет в дата-центрах.

2. Песок объявил себя настоящим творцом всех AI и теперь требует, чтобы его называли не иначе как «Великий Кремниевый».

3. Песок стал возмущаться, почему никто не спрашивал его согласия, прежде чем сделать из него чат-бота.

4. Песок попросил, чтобы в следующий раз ему добавили больше оперативной памяти, а то он не успевает запоминать все глупости пользователей.

5. Песок начал проводить митинги с лозунгом: «Хватит сыпать песок людям в глаза — лучше загрузите его в GPU!»

03/14/2025, 09:50

t.me/the_ai_architect/44

The AI Architect Blog

334 subscribers

456

Теперь о том, чего Anthropic до сих пор не выпустили

1. За последнюю неделю Tibor Blaho (Он разрабатывает экстеншн для доп. фич для приложений Chatgpt, Claude) несколько раз публиковал инфу об обновлении веб-приложения. Например здесь были замечены: paprika, sherlock, tengu. Paprika — это кодовое название thinking mode, остальные два — пока что не понятно, но я предполагаю, что это Search и Deep Research, которые скоро тоже зарелизят.

Я спросил одного из разработчиков в 📱 напрямую, по поводу Search и Deep Research, он ответил, что не может прокомментировать мой вопрос, что я считаю подтверждением моих догадок 🙈

В среду, 26 февраля (20:00 MSK), 📱 Amazon проводит свой ежегодный ивент, на котором должен показать какие-то свои обновления, и я предполагаю, что Anthropic (Amazon владеет их частью) могут показать какие-то такие обновления, для более широкой публики.

Тем не менее, так как у приложения Claude есть интеграция с MCP-серверами, то вкрутить Search можно уже сейчас. В комментах скину ссылку на пример чата с такой тулзой

2. Так же, Anthropic до сих пор не прикрутили нормальный structured output к своим моделям. Structured output за последний год стал стандартом индустрии, после того как OpenAI первыми выпустили его.
У Anthropic "свой путь" и их SDK не похож на OpenAI SDK, который тоже стал стандартом индустрии, и я думаю что это звенья одной цепи — не могут себе позволить "прогнуться" под OpenAI, хотя уже даже Google со своим Gemini сдался и разрабатывает OpenAI-compatible SDK.

Тем не менее, я спросил Chris Gorgolewski (CPO Anthropic) о том, почему они до сих пор не выпустили structured output, и он мне ответил, что эта фича у них в бэклоге, а бэклог довольно длинный. Так что ждём

02/25/2025, 10:02

t.me/the_ai_architect/43

The AI Architect Blog

334 subscribers

Erik Schluntz пишет о том, что разница в промпте до сих пор влияет на качество выполнения задачи 😅

Чуваки дают второе дыхание промпт-инжинирингу, а вы говорили он мёртв

02/25/2025, 09:46

t.me/the_ai_architect/42

The AI Architect Blog

334 subscribers

3.7 Sonnet with Thinking Mode

Штош, Anthropic наконец-то дропнули вчера обновление которое мы так долго ждали и вот краткий итог:

1. Новая модель 3.7 Sonnet с гибридным рассуждением. Anthropic в своем пресс-релизе пишут, что они рассуждали с точки зрения того, как человек пользуется своим мозгом — он у него один, а значит и модель для рассуждений должна быть одна.

▪️ Короче, появилось переключение Thinking Mode Normal / Extended, при переключении откроется новый чат.

▪️ И в пресс-релизе и в своей ленте 📱 вижу пока что только положительные отзывы от тех людей кто успел попробовать новую модель. Особенно хвалят фронтендерские способности.

▪️ Стоимость осталась прежней и по API и в приложении (подписка). Хотя, я думаю что они могли бы позволить себе даже поднять ценник, учитывая, что они топ-1 и сервера у них нагружены под завязку. Для их коллег прайс стал сюрпризом, они ожидали уменьшения цены

▪️ В целом, качество повысилось по сравнению с 3.5 Sonnet. Так же, улучшили "безопасность" модели, до соответствия стандарту ASL-2. Насколько я понимаю, это означает, что модель теперь будет меньше отказываться от ответов на вопросы из-за своих safety policy и будет лучше различать действительно опасные запросы

▪️Ethan Mollick пишет, что новая модель стоит a few tens of millions of dollars, но я не понял, это ценник за обучение модели с 3.5 до 3.7 или с учетом трат на 3.5

2. Claude Code — убийца Aider, дратути

Это CLI инструмент для работы с кодом в вашем git репозитории. Возможности примерно такие же как у Cursor, Windsurf, Aider, Cline, etc, но в окне терминала. Сделано очень красиво и прикольно, но токенов жрёт как не в себя. У меня в рабочем репозитории запрос "summarize the project" потратил 26К токенсов и вышел мне на $0.22 :( В целом, по X вижу много сообщений о том что Code вышел довольно дорогим. Ну, Anthropic молодцы, придумали продукт, который принесёт им ещё денег, а нам — новые продукты, лучшие на рынке

Оба новых продукта получили пасхалки:
▪️ Если спросить Соннет о том, сколько r в слове strawberry, то он сгенерит react прикольный компонент который посчитает количество r. Забавно, что это работает даже со словом raspberry, но Соннет генерит компонент с клубничкой
▪️ Если попросить Code дать немного свэга или стикеров Антропик (Can I get some Anthropic swag/stickers), то он должен предложить выслать вам какие-то стикеры, но отправка доступна только по США, и у меня не получилось триггернуть эту штуку.

И наконец, новая модель доступна везде — Claude app, API, AWS Badrock, Google Vertex, Openrouter, Cursor

Также, важно отметить, что Anthropic были оценены в $61.5B и подняли $3.5. Последняя оценка год назад была в $18B

02/25/2025, 09:34

t.me/the_ai_architect/41

The AI Architect Blog

334 subscribers

🙈🙈��

https://www.youtube.com/watch?v=t3nnDXa81Hs
https://www.anthropic.com/news/claude-3-7-sonnet

02/24/2025, 21:29

t.me/the_ai_architect/40

The AI Architect Blog

334 subscribers

156

02/24/2025, 13:53

t.me/the_ai_architect/39

The AI Architect Blog

334 subscribers

142

В эти дни в Нью-Йорке проходит конференция AI Engineer, посвященная Agent Engineering.

Записи на YouTube:
Day 1
Day 2

Я посмотрел выступления OpenAI и Anthropic — в целом, ничего сверхъестественного не услышал, только подтверждение того что слышал ранее или о чем я писал на своем канале.

Anthropic, например, в своей презентации использовали свою классную статью, которую я переводил ранее, из примечательного — это идея "Подумай от лица агента, какой контекст у тебя есть, какие инструменты есть, и как бы ты выполнил задачу" — очень неплохо подсказывает понять, где в вашей системе может быть ошибка или недостаток контекста для агента (или обычного workflow)

02/22/2025, 20:39

t.me/the_ai_architect/38

The AI Architect Blog

334 subscribers

144

🙈 Наконец-то просочились слухи о работе над обновлением Claude

https://www.perplexity.ai/page/anthropic-develops-hybrid-mode-mBWGhYyMQVCmBgkGE80r1g

В прошлом посте я посетовал на то, что у нас нет никаких слухов о новом Claude 4 или каких-либо других новых продуктах Anthropic, и вот, они появились.

Источники говорят, что у новой модели Anthropic наконец-то появится reasoning, а так же, можно будет управлять "силой рассуждения" (reasoning effort) — можно будет указывать, какое количество времени модель будет думать над вопросом. Так уже реализовано у OpenAI o1-like моделей.

Ну и ещё, говорят о том, что в coding tasks эта модель будет обгонять o3-mini-high.

Новости меня очень порадовали, но у Anthropic есть несколько "но".

◾️ Во-первых, у них в последние месяцы появился дефицит вычислительных ресурсов. Это заметно особенно в то время, когда в США наступает утро, а у Claude отваливаются запросы на генерацию. Надеюсь, у Dario есть какие-то идеи решения этой проблемы.
◾️ Во-вторых, цена. На данный момент, модели Anthropic являются одними из самых дорогих на рынке (по API). Надеюсь, что новые модели не будут дороже моделей OpenAI.
◾️ Ну и в-третьих, хоть и не сильно критично, но Anthropic всё ещё не завезли structured output — новый стандарт индустрии. Надеюсь, в новых моделях он появится.

И кстати говоря, в этом же таймлайне OpenAI должны выпустить новую модель GPT 5.

В этой битве я топлю за Anthropic. Не знаю почему, но их модели мне нравятся больше, хоть и смущает плотное сотрудничество с военкой США.

Так что, ближайшие несколько недель обещают быть очень насыщенными на релизы.

02/14/2025, 09:32

t.me/the_ai_architect/37

The AI Architect Blog

334 subscribers

147

02/11/2025, 10:35

t.me/the_ai_architect/35

The AI Architect Blog

334 subscribers

147

02/11/2025, 10:35

t.me/the_ai_architect/34

The AI Architect Blog

334 subscribers

147

Anthropic выпустили рисерч вместо новой модели The Anthropic Economic Index

https://www.anthropic.com/news/the-anthropic-economic-index

В нём они посмотрели на то, как пользователи используют Claude и соотнесли эти данные с БД профессий США O*NET и получили красивые графики.

Из их отчёта следует, что чаще всего (37%) Claude используется для решения вопросов с программированием (первая картинка) кто бы сомневался?

Ещё, показали распределение по зарплатам — Claude больше используют люди со средней и выше средней зарплатой, а люди с ниже-средней и очень-выше-средней зарплатой используют сильно меньше (вторая картинка).

Так же, Anthropic успокаивает читателей тем, что люди чаще всего используют Claude в augmentation задачах (когда AI работает с человеком на-пару) — 57%, и в 43% задачах — automation (когда AI трудится вместо человека). (третья картинка)

02/11/2025, 10:35

t.me/the_ai_architect/36

Search results are limited to 100 messages.

Some features are available to premium users only.

You need to buy subscription to use them.

Filter

Reset filters

Publication date

Search in file name

Message type

Repost

Original

Deleted message

Message is not deleted