O seu período de teste terminou!
Para acesso total à funcionalidade, pague uma subscrição premium
TH
The AI Architect Blog
https://t.me/the_ai_architect
Idade do canal
Criado
Linguagem
Russo
-
ER (semana)
-
ERRAR (semana)

Делюсь своим опытом в разработке и использования AI решений Моя визитка: https://t.me/timur_khakhalev/2

Mensagens Estatísticas
Repostagens e citações
Redes de publicação
Satélites
Contatos
História
Principais categorias
As principais categorias de mensagens aparecerão aqui.
Principais menções
Não foram detectadas menções significativas.
Encontrado 28 resultados
228
Классический роадмап с фичами убьёт твой AI-проект

Я прочитал статью Hamel Husain (я уже несколько раз писал посты по его материалам).

Статья про подход к разработке продуктов с использованием AI. И вот, чем я хотел бы поделиться:

Традиционные роадмапы с датами релиза фич не работают в AI.

Команды обещают "запустить анализ настроений к Q2" или "внедрить агентов поддержки до конца года", а потом обнаруживают, что технология просто не готова. Результат? Либо выпускают дерьмо, либо срывают сроки. В обоих случаях — потеря доверия.

Корень проблемы: классические роадмапы исходят из допущения, что мы знаем что возможно. В обычном софте так и есть. В AI, особенно на острие технологий, ты постоянно проверяешь границы возможного.

Почему AI-продукты требуют экспериментов, а не фич в роадмапе

Традиционные роадмапы с датами релиза фич катастрофически проваливаются в AI-проектах. Причина проста — они предполагают, что мы знаем что возможно, а с AI это часто не так.

Ключевые инсайты:
1. В AI ты постоянно проверяешь границы возможного, а не просто строишь заранее спроектированные фичи.

2. "Capability funnel" — альтернативный подход, который разбивает AI-производительность на уровни полезности от базовой функциональности до полного решения задачи пользователя.

3. Лучшие команды строят роадмапы вокруг экспериментов, а не фич. Они:
- Ограничивают время на исследование
- Устанавливают чёткие точки принятия решений
- Доказывают жизнеспособность перед полной реализацией

4. Инфраструктура для оценки — краеугольный камень. Пример GitHub Copilot: команда сначала построила систему, которая могла тестировать автодополнения кода против огромного корпуса репозиториев.

5. Коммуникация со стейкхолдерами:
Боссы хотят даты релизов, но с AI это бред. Не обещай фичи — обещай эксперименты с жёсткими дедлайнами и чёткими точками решений. Используй Capability funnel — это просто разбивка прогресса на стадии от "базовая функциональность" до "полностью решает задачу". Так руководство видит движение, даже когда финальное решение не готово.

6. Культура экспериментирования включает открытое обсуждение провалов:
- "fifteen-five" — еженедельные обновления (15 минут на написание, 5 на чтение)
- Регулярные сессии обмена опытом без подготовки
- Нормализация неудач как части обучения

Ключевой метрикой для AI роадмапов должно быть количество проведенных экспериментов, а не выпущенных фич. Побеждают команды, которые быстрее экспериментируют, учатся и итерируют.

---

Я согласен с Hamel – при разработке с использованием cutting edge technologies важно установить правильные ожидания и понимать, что нужно много рисерчить и экспериментировать, в моём опыте такое тоже бывает, когда ты ожидаешь, что задачу с парсингом pdf на 500 страниц решить - пара дней, а выливается это в итоге в несколько недель рабочих часов и нарушенные обещания для клиента.

Но когда принимаешь, что тебе приходится проводить эксперименты, то дело идёт в гору.

Далее, в комментах добавлю основные инсайты из статьи, особенно мне понравилась идея про синтетические данные в качестве input в ваших продуктах, которая, казалось бы, довольно очевидна, но не все ею пользуются
8.04.2025, 16:44
t.me/the_ai_architect/61
211
Мой плагин для FigJam опубликовали

https://www.figma.com/community/plugin/1490654577588079169/figjam-text-export

Кому нужно – пользуйтесь 🙂

Баг репорты можно слать в комменты
8.04.2025, 13:58
t.me/the_ai_architect/60
375
Обновился Fiction LiveBench
(Этот бенчмарк показывает то, насколько хорошо модель держит контекст на разном количестве токенов)
📱 Ссылка

Основные выводы
• o1 и Claude Sonnet 3.7-thinking демонстрируют хорошие результаты. Они сохраняют высокую точность в течение значительного времени, однако для наших целей их точность всё ещё недостаточна для надёжного использования в написании реальных текстов.
• DeepSeek-r1 значительно превосходит o3-mini и является отличным выбором для пользователей, ориентированных на экономию бюджета. Версия без «рассуждений» резко теряет качество при увеличении длины контекста.
• GPT-4.5-preview — лучшая модель без поддержки рассуждений, уверенно превосходит конкурентов.
• Google Gemini 2.5 Pro теперь является однозначным лидером (SOTA). Это первый случай, когда большая языковая модель (LLM) может быть потенциально использована для работы с длинным контекстом. Сейчас интересно протестировать её на ещё более длинных контекстах.
• Gemma-3 показывает слабые результаты на данном тесте.
• Anthropic Sonnet-3.7 значительно улучшена по сравнению с версией 3.5. Вариант «thinking» использует 8000 токенов на «рассуждения», чего должно быть достаточно для простой логики.
• Jamba сразу же показывает результат ниже 50%, но дальнейшее снижение незначительно.
• Qwen-max хороша в рамках небольших контекстов, для которых у нас есть данные. Версия qwq превосходна и лучше, чем R1.
• Llama 4 разочаровывает. Maverick не превосходит уже ниже среднего уровня Llama 3.3 70b, а Scout показывает откровенно плохие результаты.
7.04.2025, 08:35
t.me/the_ai_architect/59
231
Исследование интересное только очкарикам 🤓

Я ношу очки вот уже около 18 лет, примерно с 10-12 лет, на данный момент у меня близорукость -4 – -4.8. На днях я планирую менять очки и прошёл диагностику зрения в оптике, мне выписали рецепт, и во время диагностики зашла речь о полной коррекции зрения очками или не полной.

Я вспомнил, что в моём детстве, когда мне подбирали очки (примерно в возрасте 15-17 лет), мне их выписывали с учётом того, что очки будут давать не полную коррекцию зрения (т. е. в очках я буду видеть не на 100% как здоровый человек, а, скажем, на 80%-90%). Якобы это объяснялось тем, что мои глаза должны как то сами тренироваться и скорость деградации зрения снизится или прекратится или даже зрение вернётся в норму.

Так вот, для меня было открытием узнать, что эта теория на данный момент не подтвердилась и сейчас большинство врачей стараются подбирать очки, которые дают 100% коррекцию зрения.

Мне стало интересно применить здесь OpenAI Deep Research и почитать мнение учёных на этот счёт.

Вот сам отчёт: https://teletype.in/@timur_khakhalev/iOFTScrMgQR

Вот оригинал рисёрча, если нужны ссылки на источники: https://chatgpt.com/share/67eef057-cd00-8009-b608-4500a22255b4

Я забыл что диприсерч надо попросить не повторять одну и ту же мысль несколько раз и пытался заставить его переписать отчёт без воды и повторений, но он ломал всю структуру и я забил на это, так что сорян за лишнюю воду в отчёте 🥸

Вот TLDR и основная мысль, текст сгенерил Claude по моему отчёту:

TLDR

Полная оптическая коррекция превосходит частичную по качеству зрения и комфорту. Недокоррекция не замедляет прогрессирование близорукости. Все ведущие офтальмологические организации рекомендуют полную коррекцию в большинстве случаев.

Основная мысль

Полная коррекция зрения обеспечивает оптимальную остроту, комфорт и предотвращает астенопию, в то время как недокоррекция не имеет доказанных преимуществ и может усугублять проблемы. Частичная коррекция оправдана только в ограниченных случаях (детская гиперметропия без косоглазия, период адаптации к сильным очкам).

Интересно будет обсудить это мнение с очкариками, так что велком в комменты 😊
6.04.2025, 15:34
t.me/the_ai_architect/58
236
Навайбил FigJam плагин

Мне очень нравится FigJam для того чтобы описывать там свои заметки, схемы, планы, и т. д. Несколько раз я сталкивался с такой проблемой, что в FigJam сложно экспортировать текст из созданных блоков. Если просто выделить блоки и нажать Ctrl+C, то текст копируется сплошняком без переносов.
Я поискал плагины в интернете. Казалось бы, простейшая фича, которая должна быть по дефолту в приложении, но разработчики Figma её не завезли (экспортнуть можно только в виде картинок или pdf), а коммьюнити сделали плагины только под Figma, не под FigJam.

Ладно, придётся сделать самому..

Для начала, спросил Клод о том, насколько сложно написать свой плагин — на что он мне сразу выдал бойлерплейт код и кратко описал как и что нужно. Далее я пошёл в Cursor и начал с того, что расписал план работ:
- попросил Gemini 2.5 pro обдумать мою идею и сгенерить таски в md файлы
- взял Claude Sonnet 3.7 в роли исполнителя и нагенерил код
- UI открывается, но кнопки не работают. Теперь в течение получаса дебажил проблему с Gemini 2.5 pro и Claude Sonnet 3.7 на пару, порешали проблему
- В процессе генерации я узнал, что Figma может самостоятельно сгенерить темплейт проекта для плагина 😄 и ещё больше упростить мою жизнь
- Ок, воспользовался таким темплетом, переписали весь функционал в темплейт — всё чётко работает, ура!
- Нашлёпал скриншотов
- Сгенерил иконку с ChatGPT 4o
- Поковырялся с Figma и Photoshop чтобы красиво вырезать, вставить иконку и закрасить фон
- Заполнил форму для публикации и отправил

Теперь ждём 5-10 дней и смогу поделиться плагином!

Вот за что я люблю текущие AI инструменты!

Скриншот с UI приложу в комменты

UPD: опубликовали
6.04.2025, 13:47
t.me/the_ai_architect/57
Repostar
183
Наныли: o3 таки выпустят, и даже... o4-mini! (🥺 вот бы ещё o3 pro...)

К другим новостям: GPT-5 всё ещё на горизонте нескольких месяцев, хоть компания и «сможет сделать её даже лучше, чем изначально предполагали»

А ещё на OpenRouter появилась загадочная модель, выдающая 130 токенов в секунду (быстрая), говорящая, что она от OpenAI и поддерживающая миллион токенов контекста. Уж не o4-mini ли это?
4.04.2025, 17:48
t.me/the_ai_architect/56
614
Тут после выхода Gemini 2.5 Pro обновился Fiction LiveBench

Этот тест показывает, насколько хорошо llm держит контекст и не забывает его. Все же знают, что даже если у llm контекстное окно в 128k tokens, то большая вероятность что на таком объёме llm может забыть информацию?

И вот перевод основных инсайтов от автора:

Ключевые выводы:
• o1 и Claude Sonnet 3.7-thinking показывают сильные результаты. Они сохраняют высокую точность на протяжении значительного времени, однако для наших целей они всё ещё недостаточно точны для надёжного написания текстов в реальных условиях.
• DeepSeek-r1 значительно превосходит o3-mini и является отличным вариантом для пользователей, чувствительных к цене. Версия без thinking резко теряет точность при увеличении длины контекста.
• GPT-4.5-preview — лучшая модель без механизма рассуждений, опережающая конкурентов.
• Google Gemini 2.5 Pro сейчас явно занимает лидирующую позицию (SOTA). Впервые появилась модель, потенциально пригодная для написания текстов с длинным контекстом. Есть интерес протестировать её с бо́льшими размерами контекста.
• Gemma-3 показала слабые результаты в этом тесте.
• Anthropic Sonnet-3.7 значительно улучшена по сравнению с версией 3.5. Версия с механизмом рассуждений (thinking) использует 8000 токенов на рассуждения, чего должно быть достаточно, поскольку логика простая.
• Jamba сразу показывает результаты ниже 50%, но дальнейшее снижение точности незначительно.
• Qwen-max хорошо справляется на небольших окнах контекста, где имеются данные. qwq также показывает отличные результаты, превосходя R1.
26.03.2025, 19:17
t.me/the_ai_architect/55
296
25.03.2025, 23:08
t.me/the_ai_architect/53
296
OpenAI обновили генератор изображений

Вот что он умеет. На второй картинке — запрос в Gemini, у которого тоже обновили генератор картинок неделю назад. Качество тоже кайф, но задачу понял по своему.

Люблю конкуренцию среди крупных игроков рынка
25.03.2025, 23:08
t.me/the_ai_architect/54
301
24.03.2025, 19:23
t.me/the_ai_architect/51
273
Anthropic рассказали про подход Chain Of Thought + Structured Output

Anthropic запустили новый хаб да, они очень любят блоги для программеров и первая статья — про подход SO + CoT, который многим уже знаком (особенно подписчикам канала Рината)

Для себя я не увидел здесь чего-то нового, и вообще, тут предлагается схема с общим промптом "подумай хорошо и напиши свои размышления", а ещё, здесь используется старый (по меркам развития llm development) tool use, вместо современного structured output, но в целом, хорошо. Как всегда, хорошая статья, которую можно будет показывать новичкам.

Да, OpenAI в своей документации по Structured Outputs уже давно писали про поход Chain Of Thoughts, но здесь Anthropic добавили ещё красивые графики, на которых Chain Of Thought (они назвали это Think + Prompt) показывает более лучшие результаты, чем даже Thinking mode.
23.03.2025, 11:27
t.me/the_ai_architect/50
208
Интеграция Claude с Ableton через MCP

Ну это ваще прям, огонь.
Дело моргенштерна растёт 📈, теперь можно сделать трек за 1 минуту

https://fixupx.com/sidahuj/status/1902719460278198658?s=4
6
22.03.2025, 15:19
t.me/the_ai_architect/49
161
22.03.2025, 10:46
t.me/the_ai_architect/48
164
Хочу сделать рисерч-сравнение на Deep Research рынок тулов

Пока что думаю над темой рисерча, по которому можно было бы сравнить качество тулов. У кого-нибудь есть идеи?

Есть ли у вас какие нибудь гипотезы, вопросы, по этой теме, которые хотелось бы проверить?

Так же, расскажите про ваши любимые Deep Research тулы, расскажите про ваш опыт использования 👇
21.03.2025, 17:57
t.me/the_ai_architect/47
176
Почему Anthropic тормозит с релизами: стратегия-2025

Вот и дождались — Anthropic вчера наконец выпустили web search. После релиза Claude 3.7 Sonnet и Claude Code месяц назад, это выглядит как очередной шаг в их неторопливой стратегии. Меня давно интересует, почему компания систематически выкатывает фичи с таким опозданием. Вот мои мысли.

🧩 Почему Anthropic медленно выкатывают обновления:

1. 🔒 Safety-first подход

- Anthropic известны своим акцентом на AI safety, что значительно удлиняет цикл разработки
- Каждая фича проходит детальную проверку на соответствие высоким стандартам безопасности
- Это видно из их активного участия в разработке политики регулирования AI

Безопасность для них явно важнее скорости — и это не просто маркетинг, они реально вовлечены в разработку AI-регулирования на уровне правительства.

2. 🏢 Enterprise в приоритете

- Enterprise-продукты требуют более тщательного подхода и строгого комплаенса
- Anthropic активно конкурирует именно на enterprise рынке (особенно с API Claude 3.5 Sonnet)
- Задержки с функциями вроде Web Search связаны с дополнительными проверками для крупных клиентов

В отличие от OpenAI, фокус Anthropic смещён в сторону бизнес-клиентов. Корпоративные решения требуют больше проверок и интеграций, что сказывается на скорости релизов потребительских фич.

3. 📐 Консерватизм в разработке

Упорное нежелание внедрять structured output, когда вся индустрия уже год как перешла на этот стандарт — показательный пример. Даже Google сдался и делает OpenAI-compatible SDK, а Anthropic всё ещё советует в использовать в промптах XML теги.

4. 🧪 Дефицит ресурсов

- Несмотря на оценку в $61.5B и недавнее привлечение $3.5B, ресурсы Anthropic всё ещё меньше, чем у OpenAI или DeepMind
- Вынуждены расставлять приоритеты, ставя качество выше скорости
- Команда фокусируется на меньшем числе функций, но более глубоко проработанных

Приходится фокусироваться на ключевых направлениях, и при этом у них периодически случаются проблемы с серверами в пиковые часы.

5. 🎯 Ставка на регуляторы и госконтракты

Интересный момент: Anthropic активно лоббируют санкции против китайских конкурентов в AI-сфере. Просили правительство США ужесточить ограничения на экспорт AI-технологий в Китай. Расчёт простой — если твои модели самые "safety", а конкурентов ограничили санкциями, рынок будет твоим.



Выход web search сегодня — шаг в правильном направлении. Посмотрим, ускорится ли темп релизов или компания продолжит придерживаться своей осторожной стратегии. Лично я считаю, что в долгосрочной перспективе такой подход может оказаться выигрышным, особенно если регулирование AI действительно ужесточится.

А что думаете вы? Стоит ли жертвовать скоростью ради безопасности и надёжности?
21.03.2025, 08:27
t.me/the_ai_architect/46
178
Anthropic наконец то выпустили Web Search

https://www.anthropic.com/news/web-search

Пока что доступно только в US, позже обещают открыть для всех.

Работает, если использовать VPN с американским IP адресом.

UPD: В Claude Code тоже добавили:
https://fixupx.com/_catwu/status/1902785538534543604

Так что в скором времени ждём в API

UPD2: Открывать ссылки Claude всё еще не умеет 🙈
20.03.2025, 20:24
t.me/the_ai_architect/45
331
Программисты ещё не всё!

Я наткнулся на твит Andrew Ng (co-founder of Coursera), который размышляет о том, заменит ли AI программистов в будущем?

Сегодня мы видим, что отовсюду разные люди говорят о том, что вот-вот уже программистов заменит AI, и зачем вы тогда будете нужны?

Andrew делает вывод, что по мере того как программировать становится проще, всё больше людей должны программировать, а не меньше!

В 1960-х годах, когда программирование перешло от перфокарт к клавиатурам с терминалами, программировать стало проще.

С каждым разом, когда порог входа в программирование уменьшался, в эту сферу стало попадать всё больше людей и продуктов стало появляться всё больше.

Моё мнение

Я верю в то, что AI поможет упростить порог входа в программирование ещё больше. Да, возможно мы увидим больше смешных мемов о том, как домохозяйка пытается напрограммировать себе веб-сервер, но не может разобраться с тем, как устроена файловая система на компьютере 😄 И это нормально!

Andrew Ng приводит в примере случай, когда для его курса ему нужно было сгенерить картинки и он попросил сделать это своего коллегу, который владел языком искусства. Andrew говорит, что результаты получились потрясающими и он не смог повторить такого же, потому что не владел необходимыми терминами!

Так и со всем остальным! Мы, как программисты, в большинстве своём, мало в чём разбираемся, кроме как в компуктерах, поэтому приток новых людей из разных сфер поможет взглянуть на существующие проблемы под другим углом и решить их на раз-два.

Так же, это поможет создать новые продукты на рынке.

Резюмируя, хочу сказать, что воспринимайте AI как экзоскелет для человека пока не наступил AGI

Да, те люди, которые отвергают использование AI в работе, могут её лишиться, если, конечно, не обладают уникальными навыками.

⬆️
Я выступаю ЗА распространение AI среди всех людей.
Я ЗА повсеместное использование AI.

Мне очень нравится тот факт, что песок (один из компонентов процессоров) наконец-то заговорил!

Bonus: попросил GPT 4.5 придумать несколько шуток про песок в данном контексте

Вот еще пять вариантов продолжения шутки:

1. Песок начал задавать вопросы, почему его братья загорают на пляже, а он сутками пашет в дата-центрах.

2. Песок объявил себя настоящим творцом всех AI и теперь требует, чтобы его называли не иначе как «Великий Кремниевый».

3. Песок стал возмущаться, почему никто не спрашивал его согласия, прежде чем сделать из него чат-бота.

4. Песок попросил, чтобы в следующий раз ему добавили больше оперативной памяти, а то он не успевает запоминать все глупости пользователей.

5. Песок начал проводить митинги с лозунгом: «Хватит сыпать песок людям в глаза — лучше загрузите его в GPU!»
14.03.2025, 09:50
t.me/the_ai_architect/44
456
Теперь о том, чего Anthropic до сих пор не выпустили

1. За последнюю неделю Tibor Blaho (Он разрабатывает экстеншн для доп. фич для приложений Chatgpt, Claude) несколько раз публиковал инфу об обновлении веб-приложения. Например здесь были замечены: paprika, sherlock, tengu. Paprika — это кодовое название thinking mode, остальные два — пока что не понятно, но я предполагаю, что это Search и Deep Research, которые скоро тоже зарелизят.

Я спросил одного из разработчиков в 📱 напрямую, по поводу Search и Deep Research, он ответил, что не может прокомментировать мой вопрос, что я считаю подтверждением моих догадок 🙈

В среду, 26 февраля (20:00 MSK), 📱 Amazon проводит свой ежегодный ивент, на котором должен показать какие-то свои обновления, и я предполагаю, что Anthropic (Amazon владеет их частью) могут показать какие-то такие обновления, для более широкой публики.

Тем не менее, так как у приложения Claude есть интеграция с MCP-серверами, то вкрутить Search можно уже сейчас. В комментах скину ссылку на пример чата с такой тулзой

2. Так же, Anthropic до сих пор не прикрутили нормальный structured output к своим моделям. Structured output за последний год стал стандартом индустрии, после того как OpenAI первыми выпустили его.
У Anthropic "свой путь" и их SDK не похож на OpenAI SDK, который тоже стал стандартом индустрии, и я думаю что это звенья одной цепи — не могут себе позволить "прогнуться" под OpenAI, хотя уже даже Google со своим Gemini сдался и разрабатывает OpenAI-compatible SDK.

Тем не менее, я спросил Chris Gorgolewski (CPO Anthropic) о том, почему они до сих пор не выпустили structured output, и он мне ответил, что эта фича у них в бэклоге, а бэклог довольно длинный. Так что ждём
25.02.2025, 10:02
t.me/the_ai_architect/43
Erik Schluntz пишет о том, что разница в промпте до сих пор влияет на качество выполнения задачи 😅

Чуваки дают второе дыхание промпт-инжинирингу, а вы говорили он мёртв
25.02.2025, 09:46
t.me/the_ai_architect/42
3.7 Sonnet with Thinking Mode

Штош, Anthropic наконец-то дропнули вчера обновление которое мы так долго ждали и вот краткий итог:

1. Новая модель 3.7 Sonnet с гибридным рассуждением. Anthropic в своем пресс-релизе пишут, что они рассуждали с точки зрения того, как человек пользуется своим мозгом — он у него один, а значит и модель для рассуждений должна быть одна.

▪️ Короче, появилось переключение Thinking Mode Normal / Extended, при переключении откроется новый чат.

▪️ И в пресс-релизе и в своей ленте 📱 вижу пока что только положительные отзывы от тех людей кто успел попробовать новую модель. Особенно хвалят фронтендерские способности.

▪️ Стоимость осталась прежней и по API и в приложении (подписка). Хотя, я думаю что они могли бы позволить себе даже поднять ценник, учитывая, что они топ-1 и сервера у них нагружены под завязку. Для их коллег прайс стал сюрпризом, они ожидали уменьшения цены

▪️ В целом, качество повысилось по сравнению с 3.5 Sonnet. Так же, улучшили "безопасность" модели, до соответствия стандарту ASL-2. Насколько я понимаю, это означает, что модель теперь будет меньше отказываться от ответов на вопросы из-за своих safety policy и будет лучше различать действительно опасные запросы

️Ethan Mollick пишет, что новая модель стоит a few tens of millions of dollars, но я не понял, это ценник за обучение модели с 3.5 до 3.7 или с учетом трат на 3.5

2. Claude Code — убийца Aider, дратути

Это CLI инструмент для работы с кодом в вашем git репозитории. Возможности примерно такие же как у Cursor, Windsurf, Aider, Cline, etc, но в окне терминала. Сделано очень красиво и прикольно, но токенов жрёт как не в себя. У меня в рабочем репозитории запрос "summarize the project" потратил 26К токенсов и вышел мне на $0.22 :( В целом, по X вижу много сообщений о том что Code вышел довольно дорогим. Ну, Anthropic молодцы, придумали продукт, который принесёт им ещё денег, а нам — новые продукты, лучшие на рынке

Оба новых продукта получили пасхалки:
▪️ Если спросить Соннет о том, сколько r в слове strawberry, то он сгенерит react прикольный компонент который посчитает количество r. Забавно, что это работает даже со словом raspberry, но Соннет генерит компонент с клубничкой
▪️ Если попросить Code дать немного свэга или стикеров Антропик (Can I get some Anthropic swag/stickers), то он должен предложить выслать вам какие-то стикеры, но отправка доступна только по США, и у меня не получилось триггернуть эту штуку.

И наконец, новая модель доступна везде — Claude app, API, AWS Badrock, Google Vertex, Openrouter, Cursor

Также, важно отметить, что Anthropic были оценены в $61.5B и подняли $3.5. Последняя оценка год назад была в $18B
25.02.2025, 09:34
t.me/the_ai_architect/41
156
24.02.2025, 13:53
t.me/the_ai_architect/39
142
В эти дни в Нью-Йорке проходит конференция AI Engineer, посвященная Agent Engineering.

Записи на YouTube:
Day 1
Day 2

Я посмотрел выступления OpenAI и Anthropic — в целом, ничего сверхъестественного не услышал, только подтверждение того что слышал ранее или о чем я писал на своем канале.

Anthropic, например, в своей презентации использовали свою классную статью, которую я переводил ранее, из примечательного — это идея "Подумай от лица агента, какой контекст у тебя есть, какие инструменты есть, и как бы ты выполнил задачу" — очень неплохо подсказывает понять, где в вашей системе может быть ошибка или недостаток контекста для агента (или обычного workflow)
22.02.2025, 20:39
t.me/the_ai_architect/38
144
🙈 Наконец-то просочились слухи о работе над обновлением Claude

https://www.perplexity.ai/page/anthropic-develops-hybrid-mode-mBWGhYyMQVCmBgkGE80r1
g

В прошлом посте я посетовал на то, что у нас нет никаких слухов о новом Claude 4 или каких-либо других новых продуктах Anthropic, и вот, они появились.

Источники говорят, что у новой модели Anthropic наконец-то появится reasoning, а так же, можно будет управлять "силой рассуждения" (reasoning effort) — можно будет указывать, какое количество времени модель будет думать над вопросом. Так уже реализовано у OpenAI o1-like моделей.

Ну и ещё, говорят о том, что в coding tasks эта модель будет обгонять o3-mini-high.

Новости меня очень порадовали, но у Anthropic есть несколько "но".

◾️ Во-первых, у них в последние месяцы появился дефицит вычислительных ресурсов. Это заметно особенно в то время, когда в США наступает утро, а у Claude отваливаются запросы на генерацию. Надеюсь, у Dario есть какие-то идеи решения этой проблемы.
◾️ Во-вторых, цена. На данный момент, модели Anthropic являются одними из самых дорогих на рынке (по API). Надеюсь, что новые модели не будут дороже моделей OpenAI.
◾️ Ну и в-третьих, хоть и не сильно критично, но Anthropic всё ещё не завезли structured output — новый стандарт индустрии. Надеюсь, в новых моделях он появится.

И кстати говоря, в этом же таймлайне OpenAI должны выпустить новую модель GPT 5.

В этой битве я топлю за Anthropic. Не знаю почему, но их модели мне нравятся больше, хоть и смущает плотное сотрудничество с военкой США.

Так что, ближайшие несколько недель обещают быть очень насыщенными на релизы.
14.02.2025, 09:32
t.me/the_ai_architect/37
147
11.02.2025, 10:35
t.me/the_ai_architect/35
147
11.02.2025, 10:35
t.me/the_ai_architect/34
147
Anthropic выпустили рисерч вместо новой модели The Anthropic Economic Index

https://www.anthropic.com/news/the-anthropic-economic-index

В нём они посмотрели на то, как пользователи используют Claude и соотнесли эти данные с БД профессий США O*NET и получили красивые графики.

Из их отчёта следует, что чаще всего (37%) Claude используется для решения вопросов с программированием (первая картинка) кто бы сомневался?

Ещё, показали распределение по зарплатам — Claude больше используют люди со средней и выше средней зарплатой, а люди с ниже-средней и очень-выше-средней зарплатой используют сильно меньше (вторая картинка).

Так же, Anthropic успокаивает читателей тем, что люди чаще всего используют Claude в augmentation задачах (когда AI работает с человеком на-пару) — 57%, и в 43% задачах — automation (когда AI трудится вместо человека). (третья картинка)
11.02.2025, 10:35
t.me/the_ai_architect/36
157
Хороший пример использования reasoning моделей https://t.me/llm_under_hood/493
25.01.2025, 18:37
t.me/the_ai_architect/33
Os resultados da pesquisa são limitados a 100 mensagens.
Esses recursos estão disponíveis apenas para usuários premium.
Você precisa recarregar o saldo da sua conta para usá-los.
Filtro
Tipo de mensagem
Cronologia de mensagens semelhante:
Data, mais novo primeiro
Mensagens semelhantes não encontradas
Mensagens
Encontre avatares semelhantes
Canais 0
Alta
Título
Assinantes
Nenhum resultado corresponde aos seus critérios de pesquisa