Telegram channel page: Reliable ML • @reliable_ml

Your trial period has ended!

For full access to functionality, please pay for a premium subscription

Reliable ML

https://t.me/reliable_ml

Channel age

Created

Language

Russian

ER (week)

ERR (week)

Reliable ML - фреймворк о том, как управлять внедрением и развитием аналитики и data science/machine learning/AI, чтобы результат был применим в бизнес-процессах и приносил компании финансовую пользу.

Admin: @irina_goloshchapova @promsoft

Messages Statistics

Top categories

Main categories of messages will appear here.

Top mentions

The most frequent mentions of people, organizations and places appear here.

Found 7 results

Reliable ML

6 409 subscribers

1.4 k

Reliable ML на Data Fusion 2025
Ждем всех на конференции сегодня

Сегодня с Димой помогаем в проведении конференции Data Fusion 2025.

- Лучшие практики CDO: как оседлать волну популярности AI? В 18:00-19:00 в зале Физика с крутыми CDO поговорим о том, какова реальная полезность LLM, как это измерить и что вообще может сделать CDO для улучшения пути компании с внедрением AI-решений. Ведущий - Ира Голощапова.

- Кейс-сессия «Малые генеративные модели». В 18:50-19:20 в зале Фотон поговорим о возможностях, перспективах и сценариях применения малых генеративных моделей. Какими техническими, организационными и экономическими преимуществами они обладают? Обсудим все этапы - от постановки задачи и обучения до внедрения и поддержки. Ведущий - Дмитрий Колодезев.

Все, кто на месте, подходите пообщаться!

Ваш @Reliable ML

#business #tech #reliable_ml #data_fusion

04/16/2025, 15:01

t.me/reliable_ml/249

Reliable ML

6 409 subscribers

1.9 k

Data Fest 2025 - Call for Papers
Собираем доклады на Reliable ML и Career

Дорогие друзья, уже месяц как наступила весна, а значит пора готовиться к Data Fest!

В этом году мы с Димой решили вложиться в 2 секции: Reliable ML и Career. Секции будут офлайн в Мск в конце мая.
Ждем от вас заявок на доклады!

Отправляйте их в форму сюда. Или - при любых вопросах - можно напрямую написать мне или Диме.

На чем хотим сфокусироваться в этом году?

Reliable ML - на земле все только и говорят об агентах и LLM, а кто уже внедрил, преодолел грабли и написал костыли, измерил эффект и готов этим поделиться? Давайте поговорим о кейсах работы с LLM и агентами, а также о том, как повысить их надежность и полезность в реальных процессах.

Career - что меняется в карьерных навыках и ожиданиях от дата-ролей в связи с активным развитием больших языковых моделей? Может быть, появляются новые роли? Или какие-то роли, связанные с работой дата-специалистов, становятся критичными для успеха ML-проектов. Хотелось бы сконцентрироваться на том, что делать как работнику, так и работодателю в дивном новом мире.

Ждем ваших заявок!

Ваш @Reliable ML

#business #tech #reliable_ml #career #data_fest

03/28/2025, 14:39

t.me/reliable_ml/248

Reliable ML

6 409 subscribers

2.3 k

Ошибки при внедрении Generative AI решений
Перевод статьи Chip Huyen - Common pitfalls when building generative AI applications

Chip Huyen, сооснователь Claypot AI, автор популярного блога и книги "Designing Machine Learning Systems", а также эксперт, не нуждающийся в дополнительном представлении среди ML-специалистов, опубликовала статью про основные ошибки при разработке и внедрении генеративных AI-решений. Составили для вас перевод.

Итак, самые распространенные ошибки:

Использование GenAI, когда он не нужен

GenAI часто применяют для задач, где традиционные методы эффективнее. Например, оптимизацию энергопотребления можно решить простым планированием действий в часы с низкими тарифами, а не через сложные LLM-модели. Многие компании ошибочно внедряют AI ради хайпа, игнорируя более дешевые и надежные решения, такие как линейное программирование или rule-based системы.

Эксперименты с GenAI должны включать анализ того, не добавляет ли их использование избыточной сложности и костов.

Путаница между «плохим продуктом» и «плохим AI»

Провалы AI-продуктов часто связаны не с технологией, а с плохим UX. Например, чат-бот Intuit изначально провалился из-за неочевидного интерфейса: пользователи не понимали, что ему писать. Решением стали подсказки с примерами вопросов, что резко улучшило вовлеченность.

Важно уделять большое внимание тому, как AI-решение может улучшить бизнес-процесс. Например, LinkedIn не сразу осознал, что для пользователей наиболее полезна не простая оценка их навыков и метча с интересной вакансией, а рекомендации по их улучшению. Самое важное - не модель, а то, как ваш продукт решает конкретные боли пользователей.

Начинать со слишком сложного

Многие команды усложняют систему, используя агентские фреймворки или векторные БД, когда достаточно простых взаимодействий через API. Например, выбор семантического кэширования вместо поиска по ключевым словам добавляет ненужные зависимости и ошибки.

Если внедрять сложные решения сразу, это добавляет избыточную сложность в логику системы и замедляет дебаггинг. Лучше начинать с минимально рабочего решения, а затем масштабировать, когда базовые принципы проверены и стабильны.

Переоценка раннего успеха

Первые 80% результата достигаются быстро, но последующие улучшения требуют непропорционально много усилий. Например, LinkedIn потратил 4 месяца на доводку продукта с 80% до 95% качества из-за борьбы с галлюцинациями.

Стартапы сталкиваются с аналогичными проблемами: компромиссы между точностью и скоростью, сложности в интерпретации запросов. Кроме того, изменения в API-моделях или их ненадежность могут «сломать» уже работающий продукт.

Отказ от человеческой оценки

Оценка с помощью AI не заменяет людей: автооценка зависит от промптов и могут быть субъективными. Например, если автооценка хвалит ответы, а пользователи их ненавидят, это сигнал пересмотреть метрики.

Ручная проверка 30–1000 примеров ежедневно помогает находить паттерны, которые алгоритмы пропускают. Как показал пример Intuit, даже небольшие изменения в интерфейсе, выявленные через обратную связь, кардинально меняют восприятие продукта.

Сила - в комбинации человеческих проверок и автооценки.

Краудсорсинг сценариев использования

Выбор сценариев использования GenAI решений без стратегии приводит к разрозненности и дублированию усилий. Компании создают множество однотипных решений (например, чат-ботов для Slack, помощников для кодинга, и text-to-SQL вариаций), но не фокусируются на высокоэффективных кейсах.

Без приоритизации по ROI команды тратят ресурсы на «удобные» задачи, а не на те, что приносят реальную ценность. Стратегия должна учитывать не только техническую реализуемость, но и влияние на бизнес-метрики.

***

Вот такие вот советы от Chip Huyen. Самое классное, что они полностью применимы и к классическому ML. Книга "Rules of ML" от Google - нетленна. А ее первое правило в особенности.

Что вы бы добавили к этим советам из своей практики?

Ваш @Reliable ML

#business #reliable_ml #llm #generative_ai

03/01/2025, 19:17

t.me/reliable_ml/247

Reliable ML

6 409 subscribers

2.0 k

Почему во времена AI-революции стоит быть осторожным?
Заметки на полях

Решила тут Ирина почитать последние актуальные книги по GenAI - и по внедрению в прод, и про разное менеджерско-стратегическое. Нашлось как всякое интересное (могу потом сделать обзор, если интересно), так и очень интересное.

Например, книга Chief AI Officer Handbook от Packt Publishing. Которую уже после 1й главы начинаешь подозревать в чем-то нехорошем: уж слишком подозрительно структурирован текст, идеальным языком написаны итоги каждого раздела, а главное - уж больно бессмысленно все это в совокупности. До последнего не хотелось верить, что в такое издательство может проникнуть книга, так неприкрыто написанная LLM/ChatGPT, но более детальный разбор показал, что так оно и есть.

Грусть, возмущение и мысли о том, что бедным издательствам теперь будет трудно, и надо что-то менять, чтобы продолжать оставаться ценными для читаталей. А нам, читателям, тоже надо быть начеку и - если мы хотим получать действительно ценную информацию - уметь отличать сгенерированную LLM инфу от человеческой. Уже даже исследования появляются на тему того, что у человека это неплохо получается - лучше алгоритмов.

В голове - с учетом статей - собираются вот такие критерии для идентификации LLM-подставы:

- Очень характерный стиль изложения: выхолощенная, предсказуемая структура, с четкими абзацами и пошаговым изложением, где жирным выделены главные резюмирующие мысли (в начале каждого абзаца).

- Заключения всегда аккуратные, оптимистичные и резюмирующие

- Часто используются определенные слова. Судя по статье, например, vibrant, crucial, significantly, etc. А по личным наблюдениям, можно даже найти следы промптов в тексте - например step-by-step в заголовках книги про Chief AI Officer.

- Отсутствие понятного посыла или новых/интересных для читателя мыслей. Хотя как единственный критерий это, конечно, не работает. Всякие книги встречаются.

- Фактура спорная, неверная или очень общая. Пример критерия с высоким весом - ссылки на литературу ведут на несуществующие страницы.

- Ни одной (или мало) схем в тексте. У авторов-людей почти всегда есть потребность как-то визуально структурировать и показать наглядно мысли, которые они передают в тексте. Для LLM-текста - человек должен заморочиться отдельным промптом, чтобы собрать подобное. А возможно, даже осмыслить тот текст, который ему написала модель. Это уже существенно отдалит его от полностью сгенеренного.

Есть ли у вас что добавить к списку критериев? Не дадим LLM захватить литературу!

Вот такой вот дивный новый мир. На фоне размышлений о будущем после книги про AI Officers мне вспоминается история из великого башорга. Для тех, кто еще помнит 😄

На картинке - скрин из книги с заголовком с кусочком промпта.

Ваш @Reliable ML

#business #мысли #reliable_ml #llm

02/23/2025, 20:27

t.me/reliable_ml/246

Reliable ML

6 409 subscribers

1.2 k

Reasoning vs. Instruct (GPT) models
Перевод: о различиях в применении Reasoning и GPT моделей

Решили сделать краткий перевод недавней статьи от Open.AI про различия в применении reasoning (o-series) и GPT-моделей. Тема горячая, иметь идеи на эту тему в понятном виде под рукой кажется полезным. Если текст наберет много лайков, будем и дальше публиковать подобные посты с тегом "перевод" - на актуальные темы.

Ключевые различия Instruct (GPT) vs. Reasoning LLM

Reasoning (в случае Open.AI - o-series) и привычные нам чат-модели или instruct-модели (в случае Open.AI - GPT) решают разные задачи и требуют разных подходов.

- Reasoning-модели - планировщики. Созданы для сложных задач, требующих глубокого анализа, стратегического планирования и работы с большими объемами неоднозначной информации. Они медленнее, но точнее Instruct LLM. Идеальны для областей, где важны точность и надежность: математика, наука, инженерия, финансы, юриспруденция.

- GPT-модели (и другие instruct-модели) - рабочие лошадки. Оптимизированы для быстрого выполнения четко определенных задач и подходят для случаев, где важны скорость и низкая стоимость. Меньше подходят для сложных, многошаговых задач.

Успешные кейсы использования Reasoning-моделей (на примере o-series)

- Работа с неоднозначными задачами. Модели задают уточняющие вопросы и обрабатывают сложные документы. Hebbia использует o1 для анализа сложных платежных ограничений в кредитных соглашениях.

- Поиск иголки в стоге сена. Модели находят важные детали в огромных объемах неструктурированной информации. Endex использовал o1 значимой информации в документах компании (контракты, договоры аренды, и проч.), которая может повлиять на сделку о ее покупке. Модель выявила важное положение о «смене контроля» в сносках: если бы компания была продана, ей пришлось бы выплатить кредит в размере $75 млн.

- Выявление взаимосвязей и выводов из сложносоставных данных. Модели находят связи между документами и делают выводы на основе контекста. Blue J улучшила производительность в 4 раза, используя o1 для налоговых исследований, когда нужно было прийти к логическим выводам, которые не были очевидны ни в одном отдельном документе. BlueFlame AI применила o1 для анализа влияния фандрайзинга на существующих акционеров - получив в итоге корректную расчетную таблицу на основе множества документов, на создание которых у финаналитиков ушло бы существенно больше времени.

- Многошаговое планирование. O-series выступает как «планировщик», разбивая задачи на шаги и делегируя их GPT для выполнения. Lindy.AI использует o1 для автоматизации рабочих процессов. Модель забирает информацию из календаря или эл. почты, а затем автоматически помогает пользователю планировать встречи, отправлять e-mail-ы, и др. Декомпозиция и планирование задач были полностью переключены на o1.

- Визуальный анализ. O1 лучше GPT-4o справляется с интерпретацией сложных изображений (графики, чертежи). SafetyKit достигла 88% точности в классификации изображений с помощью o1 - в задаче проверки комплаенс-рисков для миллионов товаров в Интернете, включая подделки ювелирных изделий класса люкс, исчезающие виды и контролируемые вещества.

- Рецензирование и улучшение кода. Модели эффективно анализируют код, находя ошибки, которые могут пропустить люди. CodeRabbit увеличил конверсию в 3 раза, перейдя на o-series для ревью кода - во многом за счет того, что o1 способен обнаруживать ошибки и несоответствия между множеством файлов в репозитории. Кроме того, o1 на голову выше GPT при помощи разработчикам в проектировании сложных систем.

- Оценка и бенчмаркинг. O-series используется для проверки качества ответов других моделей. Braintrust улучшила F1-оценку с 0.12 до 0.74, используя o1 для оценки ответов GPT-4o.

Для нас будет очень ценно, если в комментах вы напишете, насколько такой пост полезен.

Ваш @Reliable ML

#tech #business #перевод #reliable_ml #llm

02/20/2025, 11:28

t.me/reliable_ml/245

Reliable ML

6 409 subscribers

1.9 k

Применение Generative AI в компаниях США
Обзор обзора - 2024: The State of Generative AI in the Enterprise

В декабре 2024 был опубликован обзор от фонда Menlo Ventures - про применение Generative AI моделей в корпорациях. Данные собраны с 600+ ИТ-руководителей компаний в США с 50+ сотрудниками - в октябре-ноябре 2024.

Cделали для вас краткий обзор этого обзора - того, что показалось интересным.

- Топ-5 сценариев применения GenAI в корпорациях: code generation, support chat-bots, enterprise search + retrieval, data extraction + transformation, meeting summarization. Ну и, конечно, все экспериментируют с агентами. В целом, ничего удивительного, но может быть полезно при приоритезации кейсов для вашей компании - в этих популярных сценариях LLM показывают себя пока наиболее успешно. Для каждой категории в статье приведены примеры успешных стартапов/решений со ссылками - наглядно и полезно.

- Закрытые модели все еще широко используются. Преобладает использование моделей с закрытым исходным кодом (81% компаний, основные решения - GPT от Open.AI и Claude от Anthropic). Открытые модели у себя разворачивает только 19% компаний. При этом на уровне компании обычно полноценно развивают около трех моделей, которые адаптируют под различные сценарии использования.

- О чем стоит подумать при внедрении. При покупке AI решений организации обращают внимание в основном на легкость вычисления ROI и учет специфики деятельности компании. Однако часто недооценивают на старте сложности внедрения моделей: технические интеграции, будущую поддержку и масштабирование. Топ причин разочарований в моделях: затраты на внедрение (26%), вопросы конфиденциальности данных (21%), неоправдавшиеся ожидания по ROI (18%), галлюцинации моделей (15%).

- Где внедрять. В среднем компании выделяют финансирование для разработки AI-решений во всех подразделениях. Наибольшая доля - у IT (22%). Возможно, что это за счет централизованного владения инфраструктурой, хотя напрямую это не написано. Второе и третье место у инженерных задач (19%) и клиентской поддержки (9%).

- От горизонтальных решений к вертикально-интегрированным приложениям для отдельных бизнес-областей. Если раньше решения были в основном про сервисы создания картинок и генерации текста, то в 2024 году - это полноценные приложения для конкретных задач в здравоохранении, юриспруденции, финансах и медиа:

- Для медицины это $500 млн инвестиций в решения по автоматизации клинических процессов: от ведения записей (Abridge, Ambience) до управления доходами (Adonis, Rivet).
- Юристы ($350 млн) используют GenAI для работы с большими объемами данных и автоматизации задач. Примеры: Everlaw (литигация), Harvey (проверка договоров и умный поиск), Garden (патенты и интеллектуальная собственность), и др.
- В финансах ($100 млн) выделяют стартапы вроде Numeric (автоматизация процессов бухучета), Arch (помогает собирать и агрегировать внешние данные о компаниях для управления инвестициями) и Norm AI (агентов, помогающих работать по комплаенс задачам: от сбора новых документов и рисков из внешних данных до помощи в проверке транзакций).
- В медиа ($100 млн) популярны как профессиональные студии (Runway), так и инструменты для независимых авторов (Descript, Captions).

Ваш @Reliable ML

#tech #business #reliable_ml

02/16/2025, 16:34

t.me/reliable_ml/244

Reliable ML

6 409 subscribers

1.7 k

Data Ёлка 2024 - Итоги года от Reliable ML
О том, как мы праздновали ODS Новый Год 28 января 2025

Совсем недавно в офисе VK в Москве состоялась традиционная Data Ёлка 2024. Мы с Димой в этот раз тоже решили поделиться итогами года от Reliable ML.

У нас получилось два доклада:

- От Димы Колодезева - про hard-тренды 2024. Поговорили про conformal prediction, появление качественных материалов по causal inference в ML на русском (и вообще появление causal inference в ML!), прорыв в интерпретируемости трансформеров и больших языковых моделей, будущее мира на промптах и изоленте (стабилизацию вывода LLM в прод), а также антихрупкость в ML.

- От Иры Голощаповой - про полезные soft-фичи в управлении ML-разработкой. Обсудили важность того, чтобы не увлекаться шаблонами (да-да, даже дизайн-документами!), системно подходить к обучению дата-команд и бизнеса, погружаться в бизнес-процессы, для которых делаешь ML-решение, уметь брать на себя ответственность за результат, а также про то, что вдохновение - это тоже ответственность.

Будем рады, если материалы окажутся полезными для вас в этом году.

Прекрасного вам 2025го!

Ваш @Reliable ML

#tech #business #dataелка2024 #reliable_ml

02/01/2025, 18:47

t.me/reliable_ml/243

Search results are limited to 100 messages.

Some features are available to premium users only.

You need to buy subscription to use them.

Filter

Reset filters

Publication date

Search in file name

Message type

Repost

Original

Deleted message

Message is not deleted