Telegram channel page: Katser • @datakatser

Your trial period has ended!

For full access to functionality, please pay for a premium subscription

Katser

https://t.me/datakatser

Channel age

Created

Language

Russian

ER (week)

ERR (week)

Авторский канал @ykatser по data science, машинному обучению и искусственному интеллекту в основном в задачах промышленности, но не только

Messages Statistics

Top categories

Main categories of messages will appear here.

Top mentions

The most frequent mentions of people, organizations and places appear here.

Found 21 results

Katser

1 705 subscribers

1.2 k

AI/ML/DS в вибродиагностике. Часть 1 — введение про ящики

🆕Приветствуем серию постов или временную рубрику про машинное обучение в вибродиагностике. Основным автором рубрики будет Даниил Кечик, ну и я немного буду помогать.

🌀Лирическое авторское вступление
Подчас кажется, что существуют две практически непересекающиеся вселенные. В первой, как говорили классики, "истина всегда конкретна". Если речь идёт о моделировании механических систем, то речь идет про их точное воссоздание методом конечных элементов. Хочешь перенести свои наработки на новое устройство? Тогда тебе не составит труда собрать новую такую же модель!
Во второй — истина максимально туманна. Она растворена в озёрах данных, и единственный способ хоть как-то к ней приблизиться — сконцентрировать в чёрный ящик (речь о большинстве ML моделей), в который нет никакого способа заглянуть! Вернее, посмотреть-то можно, но понять увиденное...
Попытки пообщаться эти вселенные всё же совершают.

◾️Примеры ML в вибродиагностике и "черные ящики"
Возьмём недавнюю статью, где авторы использовали свёрточную нейросеть для различения дефектов подшипников качения. На вход нейросети подаются коэффициенты вейвлет-преобразования. Они далеко не первые, кто так делают. В работе приведены формулы расчёта "подшипниковых частот", т.е. частот взаимодействия его элементов между собой. Как эти частоты помогут в дальнейшем — не раскрыто. На приведённой скалограмме кратко поясняется, почему вейвлет-преобразование подходит для анализа вибрации подшипников.
Получить достаточно полное представление о состоянии области на сегодняшний день может помочь недавний обзор применяемых подходов к диагностированию по сигналам вибрации. Здесь тоже не предполагается само моделирование физической системы. Связь получаемых после обработки коэффициентов с результатами диагностирования полностью доверяется "чёрному ящику".

◽️"Серые ящики"
Наличие "подшипниковых частот" и пригодных для обработки методов подсказывает, что есть ещё целая область знаний, находящаяся между "чёрными ящиками" и "белыми ящиками" максимально конкретных моделей. И действительно, в деле вибрационной диагностики немало таких наработок, которые конвертируются в диагностические (экспертные) правила. Эти правила работают для разнообразного оборудования, конструкция которого нам известна. И только отсутствие универсальных приборов или программ, которые автоматизируют диагностику любого насоса или газотурбинного двигателя, подсказывает, что чего-то ещё не хватает.
Это всё наводит нас на мысли о необходимости построения моделей "на стыке" областей - машинного обучения, цифровой обработки сигналов, физического моделирования механических систем. Назовём это (по аналогии) "серым ящиком". Такая модель строится на основании всех доступных знаний о моделируемой системе, включая её состав и упрощённое представление её элементов. Эта идея тоже не новая, см. например о data–model fusion подходах. Полагаем, что именно это направление наиболее перспективное для получения новых результатов.

❗️Послесловие
Мы не обещаем решить глобальные проблемы, стоящие в отрасли, но направляем свои усилия в эту сторону. В следующих публикациях рассмотрим методы, уже применяемые для диагностирования оборудования по сигналам вибрации. После изложим наши соображения и наработки в построении таких "серых ящиков" и наши подходы к моделированию и диагностированию роторного оборудования.

04/14/2025, 07:30

t.me/datakatser/213

Katser

1 705 subscribers

544

Отзыв на книгу Elon Musk by Ashlee Vance
Уже традиционная рубрика о книгах, которые я читаю

В комментариях говорят, что даже лучше самой книги (но это я проверю за вас — книга ждёт своего часа на полочке).
Прочитал, как и обещал, первую биографию Илона Маска. Мое мнение: книга однозначно лучше ревью-статьи, обязательна к прочтению техноэнтузиастам (да и всем), много внутренней кухни SpaceX, Tesla и личной жизни Маска, и просто очень мотивирующая книга. Рекомендую❗️

Выделил для себя по 1-2 топ-цитат из каждой главы, делюсь:
🔘(глава 1) We wanted flying cars, instead we got 140 characters — слоган инвестиционной компании Питера Тиля. Речь о том, что в нулевые люди как будто перестали хотеть изобретать меняющие жизнь вещи, а инновации и инноваторы/предприниматели обмельчали, создавая твиттеры, вместо ракет и электромобилей. Забавно, что Маск в итоге выкупил твиттер
🔘(глава 1) It's Elon's world, and the rest of us live in it — слова бывшей жены о всех нас
🔘(глава 2) "At one point, I ran out of books to read at the school library and the neighborhood library," Musk said. "This is maybe the third or fourth grade. I tried to convince the librarian to order books for me. So then, I started to read the Encyclopaedia Britannica. That was so helpful. You don't know what you don't know…” — о жажде знаний (потом Илон будет читать советские учебники по ракетостроению, потому что почему бы и нет)
🔘(глава 4) That's Elon. Do or die but don't give up — о том, как неспортивный и растренированный Маск вместе с коллегами поехал в горы на велосипеде, приехал последним, но не сдался
🔘(глава 5) That's my lesson for taking a vacation: vacations will kill you — цитата Маска после того, как он заболел самой смертоносной версией малярии в редком отпуске на родине в ЮАР и несколько дней пролежал в интенсивной терапии, после чего еще 6 месяцев восстанавливался
🔘(глава 6) The kiss of death was proving Elon wrong about something — об ужасном отношении Илона к сотрудникам SpaceX и увольнении лучших инженеров
🔘(глава 7) Don't worry about the methods or if they're unsound. Just get the job done — о методах управления в Тесле, транслируемых Маском всем сотрудникам
🔘(глава 😍 "Most people who are under that sort of pressure fray," Gracias said. "Their decisions go bad. Elon gets hyperrational. He's still able to make very clear, long-term decisions. The harder it gets, the better he gets…" — друг и инвестор SpaceX и Tesla о том, что пережил Илон в 2008 года (проблемы в личной жизни, недостаток финансирования, плохая пресса, неудачные запуски и почти банкротство обеих компаний + личное банкротство)
🔘(глава 10) The mantra was that one great engineer will replace three medium ones — такой подход используется с целью делать больше вещей внутри компаний, а не обращаться к подрядчикам, что позволило сэкономить и ускорить разработку продуктов внутри всех компаний Маска
🔘(глава 11) "... The point is to maximize the probable life span of humanity" — цитата Маска в процессе рассуждений о том, полетит ли он сам на Марс (хочет быть одним из первых, чтобы вдохновить людей, хоть и понимает, что это не самый умный поступок)

🔮В эпилоге есть интересные прогнозы (книга от 2017 г) на дальнейшие успехи Илона, теслы и SpaceX. Например, о том, когда Илон станет богатейшим человеком, о конкуренции SpaceX с Китаем, о продажах теслы. Думаете сбылись?

04/12/2025, 11:01

t.me/datakatser/212

Katser

1 705 subscribers

573

⚡️Разведочный анализ данных и остаточный ресурс силовых трансформаторов

Пост с представлением датасета, постановками задач и материалами с кодом здесь. А сегодня поделюсь работой Дмитрия Меняйлова, Junior ML инженера в промышленности, моего студента: Дима подготовил EDA и собственное решение задачи определения RUL. Будет рад конструктивной критике и обратной связи.

🟡Наконец-то у датасета появился свой EDA с довольно подробным описанием и анализом данных.
🟡Много методов ML попробовано для задачи RUL в отдельном блокноте. Тут и автомл (pycaret), и optuna для подбора оптимальных гиперпараметров, и вся база (бустинги, леса). И даже сравнение с моими результатами из хабровской статьи (ищите в оригинальном посте)
🟡Отмечу, что получился отличный пет-проект для начинающего специалиста. Буду советовать студентам в качестве примера.

📎А в комментариях файл, где работа оформлена в виде отчета, ну вдруг кому-то будет полезно.

04/10/2025, 07:03

t.me/datakatser/211

Katser

1 705 subscribers

483

🔝Материалы со стратегической сессии по внедрению ML в машиностроение
Выступил не так давно на стратегической сессии крупной машиностроительной компании. Ну и как не поделиться с вами материалами с лекционной части (слайды в комментариях👇). Специально никого не пиарю.

Расскажу более детально о своем докладе:
🔵Главной целью ставил "приземлить" ожидания и поделиться опытом реальных проектов, поэтому презентация во многом состоит из проблем и их решений. Отсюда еще и следует прописная истина, что начинать лучше с более простых проектов, но лучше формулировать как "с низковисящих плодов" или "с быстрых побед". К таким плодам относятся и заинтересованный заказчик, и достаточность ресурсов, и невысокая сложность проекта. Это обеспечит приживаемость технологий у всех, включая топ менеджмент, владельцев бизнеса и инвесторов. В конце концов для них ML — еще одно мероприятие по повышению эффективности бизнеса.
🔵Важным считаю насмотренность кейсов, поэтому большая часть презентации посвящена задачам, формулировкам, статистике популярности (высокая корреляция с успешностью) кейсов. В конце есть и ссылки на на библиотеки кейсов для бизнесовых людей (аналитические отчеты) и технических специалистов (мой репозиторий на гитхабе).
🔵Впервые интегрировал в свою презентацию информацию из этого отчета. Интегрировалось очень удачно.
🔵Информацию собирал в течение нескольких лет, но хорошо записанного доклада нет, надо будет сделать, пойдет дополнением к предыдущему посту про концентрированный опыт. Кстати, версия презентации урезанная.
🔵Материал, как и мой опыт, смещены на стадию производства (грубо говоря, есть еще проектирование, сбыт и обслуживание).
🔵ML в промышленности — реальность, уже не до "тестов", пора догонять лидеров и внедрять, несмотря на боль и большое количество барьеров и проблем. Кстати, опыт можно набирать через людей, прошедших цифровизацию в других компаниях, а не стараться пройти самостоятельно.
🔵Мне интересно наблюдать за приходом в промышленность LLM и агентов. Но общаясь с коллегами из промышленных корпораций, приходим к выводам, что с внедрениями и эффектами есть проблемы. Технология привлекательная, но пока не более того. Хотя на масштабе эффекты есть: сокращение трудозатрат тысяч инженеров или юристов даже на 15 минут в день уже ощутим в деньгах. Хотя хайп LLM точно бустит общий интерес к цифровым технологиям и классическому ML.

*️⃣Не первый раз присутствую и выступаю на стратегических сессиях, опыт всегда интересный. Фасилитировать практические части сессий (с генерацией гипотез и брейнштормами для задач компании) я не готов, но выступить с докладом не против. Кстати, отлично практическую часть вел Александр Хайтин, я участвовал разок. Лекционную часть даже могу собрать из знакомых и коллег для вашей компании — пишите.🤦‍♂️

ПС Если кто-то из спикеров подписан на канал и против публикации материалов — напишите в лс.

04/02/2025, 17:59

t.me/datakatser/210

Katser

1 705 subscribers

508

🔝Концентрированный опыт внедрения DS/ML/AI в промышленных компаниях
Следим и слушаем "топов": Head of DS'ов, CDS'ов, CDO, директоров инноваций, директоров цифровых дочек холдингов и вендоров решений в промышленности.

Что мне интересно в таких материалах:
🟢Кейсы, включая постановки задач, DS метрики и экономические показатели/KPI всего DS направления
🟢Технические инсайты
🟢Фреймворки управления DS проектами
🟢Архитектуры отдельных решений и платформ
🟢Стратегии цифровизации и внедрения ИИ, путь компаний
🟢Актуальные тренды и технологии
🟢Софт скиллы, майндсет и опыт на разных позициях
🟢Барьеры и набитые шишки в процессе внедрения ИИ и инноваций

Примеры полезных выступлений/презентаций/интервью/подкастов:
🔴НЛМК. Искусственный Интеллект в металлургии. Анджей Аршавский [link]
🔴ММК. Опыт ММК. Интервью с Данилой Целикановым [link]
🔴Mechanica AI. Искусственный интеллект в металлургии. Александр Хайтин [link]
🔴РУСАЛ. Где можно и где нельзя без ML в промышленности. Михаил Граденко [link]
🔴Еврохим. Как устроена разработка ML-продуктов для производства ЕвроХима. Вячеслав Козицин [link]
🔴Сибур. Цифровая трансформация в СИБУРе. Василий Номоконов [link]
🔴Норникель. Искусственный интеллект в "Норникель" / Про фреймворки для управления проектами на миллиарды. Алексей Тестин [link]
🔴Норникель. Цифровые двойники оператора на производстве на примере компании из цветной металлургии. Антон Абраров [link]
🔴Северсталь. Как AI помогает зарабатывать миллионы одному из крупнейших заводов в стране. Светлана Потапова [link]
Стоит обращать внимание на дату материалов, потому что хоть и медленное, но развитие есть.

Еще мои мысли:
🔘Да, уровень материала разный: от МЛ моделей до управления цифровизацией, иногда слишком верхнеуровнево, иногда слишком конкретно, но я все это считаю полезным.
🔘Можно следить за компаниями, можно следить за личностями, так как многие руководители перемещаются (иногда не по своей воле) между компаниями и тиражируют свой опыт (как удачный, так и не очень).
🔘Знакомясь с материалами и зная внутрянку отраслей/компаний, понятно, что где-то преукрашено, где-то недосказано, но даже так материалы бесценны. Кстати, знание внутрянки и более реального состояния дел дает дополнительные инсайты о том, что работает, а что нет. Другими словами от "не повторяйте" до "а вот это надо слушать очень внимательно".

03/27/2025, 07:31

t.me/datakatser/209

Katser

1 705 subscribers

595

Гибридное моделирование. Часть 2 — кейсы

В первой части погрузились в подходы, пора закрепить опытом коллег и прокачать насмотренность. К тому же встречаю много скепсиса, иногда оправданного. Поэтому привожу реальные кейсы из своего репозитория. А вы можете как контрибьютить в репозиторий (хотя и просто за 🌟 спасибо), так и поделиться другими кейсами к комментариях👇.

🔵ГПН (НГУ). Гибридное моделирование глушения скважин в условиях АНПД. Степан Кармушин и Антон Кожухов [tg]

🔵Еврохим (ЦТиП). Разработка рекомендательной системы для производства аммиака. Александр Верхоломов [youtube]

🔵Инфосистемы Джет. Помощник сталевара: для чего металлургам нужно машинное обучение? Антон Головко [habr]

🔵Северсталь. Система управления процессом окомкования железорудных окатышей. Андрей Голов [youtube], [habr]

🔵ИТМО. Гибридное моделирование океана: совмещаем гидродинамику и машинное обучение. Юлия Борисова [youtube]

ПС Репозиторий, кстати, регулярно обновляю и дополняю, чтобы было удобно пользоваться, но открыт к предложениям по улучшению.

03/18/2025, 07:32

t.me/datakatser/208

Katser

1 705 subscribers

746

cnpostercorpsoft2025.pdf

Программные разработки российских корпораций, 2025

На карте для себя вас выделил зеленым те разработки, которые относятся к ML прямо или хотя бы имеют часть функционала на основе ML. Прокомментирую материал в контексте ML.

Пишут:
Коммерциализация такого ПО имеет высокий шанс на успех, поскольку оно лучше учитывает специфику бизнес-процессов и производства компаний отрасли.
Со второй частью тезиса сложно не согласиться, да и наблюдаю попытки продажи разработок (остающим) конкурентам по отрасли. Но вот недостатков у внутренних разработок полно. Несколько моих комментариев:
🟡Продуктивизация: если делают проект, то часто не думают, чтобы сделать из этого продукт.
🟡Поддержка: не умеют DS/ML дочки/команды в поддержку своих продуктов. Да и с доработкой под нового заказчика предполагаю, что может быть сложно.
🟡Цена провала: если ты вендор/подрядчик, то не внедрение и плохой продукт — конец бизнеса (все сверху до лидов это точно понимают), а для внутренней команды это еще одна невыстрелившая гипотеза. Слегка обострил, но суть, надеюсь, поняли. Это влияет на конечный продукт.
🟡Оверфиттинг под предприятие/холдинг: разрабатывая продукт, цифровые дочки ориентируются на специфику холдинга, которая может сильно отличаться у конкурентов/партнеров.
🟡Кастомность разработки: некоторые разработки просто кастомные и максимум, что можно продавать — экспертизу, подходы к решению задачи.
🟡Немного поворчу, что опять не всех пересчитали, например, на том же comnews писали про продукт цифрума и РАСУ (мб уже нет продукта?).

Ну и последний комментарий: никто ничего мне не занес, а могли бы🤦‍♂️

Про причины недостатков такого ПО можно рассуждать и спорить долго, среди важных: отсутствие открытой конкуренции (преференции внутренним командам), проблемы корпоративных процессов (проще и быстрее закупить железо и софт подрядчику, чем встроиться в цикл закупки предприятия). Есть и многие другие.

Ссылка на исходный материал.

03/12/2025, 18:03

t.me/datakatser/207

Katser

1 705 subscribers

533

🎉Итоги 2024 года в ML in Manufacturing от ODS

Мне было интересно послушать об итогах года в ML in Manufacturing от Димы Подвязникова. 2 года выступаю у Димы в секции на Datafest'е и даже немного помогаю собирать доклады.

Я бы дополнил выступление (далее с ссылками на материалы в канале):
🔵open-source'ом (раз, два, три)
🔵другими конференциями, включая материалы и доклады с них (раз, два, три)
🔵хотя бы ссылками на аналитические отчеты по теме (мой 8ой пост серии, остальные доступны по ссылкам внутри). Там и больше трендов можно рассмотреть, о которых в докладе упоминалось
🔵мелочами, типа ежегодного соревнования от phm society; кстати, тренд на то, чтобы делиться данными не встречал и тд

За упоминание RUL в ключевых докладах отдельное спасибо😇

Наверно, и я много всего забыл — делитесь в комментариях👇

03/10/2025, 07:33

t.me/datakatser/206

Katser

1 705 subscribers

427

Автоматизация разметки режимов работы флотомашины. Часть 2

Дополнение первого поста от Алексея из комментариев и из общения с подписчиками в лс.

О выходных данных из алгоритма
Имелось в виду, что алгоритм выдает класс состояния для каждой временной метки/точки/вектора признаков (поточечные значения класса). Хотя выходом алгоритма может быть и точки изменения состояния, так как из одной постановки задачи в другую несложно перейти.

Об агрегации поточечных значений класса для интервала при выделении интервалов
У нас есть интервал, в котором n точек, у каждой из которых предсказан класс. По интервалу можно и среднее, и моду (для целых значений) брать, чтобы принимать решение, например, нужен ли взгляд разметчика или и так очень сильно уверены. Трешхолд можно тоже подобрать на данных. Да и некачественно нарезанные сегменты (большая дисперсия классов точек) можно будет дропать/доразмечать вручную.

О приемке подобных систем на производстве
Специальные ПСИ на подобный алгоритм разметки состояний может не проводится, если алгоритм, например, является частью системы управления: то есть испытывается вся система в комплексе и смотрится эффект от всего решения. Можно даже проводить A/B/C тест (с использованием этого алгоритма в управлении и без него).

Если предположить, что алгоритм сдается отдельно, то я вижу 2 варианта:
1. Либо как ground truth используется размеченное видео — на сыром прогоняем, получаем свою разметку и сравниваем с ground truth.
2. Либо мы пишем видео в параллель с работой алгоритма и потом смотрим на результаты работы алгоритма, отмечая, судя по видео, что верно, что нет.

Кадры vs Видеофрагменты
По моему опыту, сохранять всего лишь кадры не так хорошо, так как по ним не всегда можно понять состояние, лучше видео.

Дополнения к вариантам решений из 1ой части (продолжаю нумерацию):

5️⃣Предобработка видео с временной компрессией.
Иногда жидкость начинает течь особенно медленно и тогда можно создавать ускоренные видеофрагменты (например, 5x или 10x) для интервалов, чтобы эксперт мог быстрее просматривать длинные периоды времени и определять режимы работы.

6️⃣Внедрить инкрементальное обучение(IL).
По мере накопления размеченных данных постепенно улучшайте модель классификации и используйте её для предсказания меток на новых данных. Эксперт проверяет только те интервалы, где уверенность модели ниже порога.

7️⃣Слияние мультимодальных данных.
Объедините данные с датчиков (температуры, вибрации) и визуальные признаки в единую репрезентацию с помощью методов нейронного слияния (по типу того, что делают в импульсных НС), стекинга или простого сложения эмбеддингов. Это повысит точность автоматической сегментации.

8️⃣Интеграция методов самообучения.
Используйте подходы self-supervised learning для извлечения признаков из неразмеченных данных. Это поможет улучшить качество предобученных представлений, а затем дообучить классификатор с меньшим количеством разметки.

9️⃣Сжатие данных.
Если вы используете трансформеры, то можно поэкспериментировать с извлечением признаков из них уже после обучения. На основе этих данных можно, например, уловить минимальный размер для сжатия данных без просадок в точности классификации.

🔟Про добавление алгоритмов коррекции искажений перед отправкой изображений в модель и внедрение area attention.
Натыкался на статью "Multi-Scale Deformable Transformers for Student Learning Behavior Detection in Smart Classroom".
Там предложили очень интересный подход с Multi-Scale Deformable Transformers, который преодолевает ограничения существующих моделей, такие как проблемы с окклюзией, размытием и различием масштабов объектов в динамичной и сложной среде. Так вот, на основе этого трансформера можно собрать отдельный модуль внимания по типу этого. Итак, используя Area Attention для восстановления изображения, а в другой модели MDAM для сегментации и обнаружения объектов, можно сильно вырасти в качестве точности и повторяемости классификаций/сегментаций/обнаружении объектов.

03/07/2025, 07:02

t.me/datakatser/205

Katser

1 705 subscribers

595

Победи DeepFake!

Участвуй в Kryptonite ML Challenge и создай решение для распознавания лиц. Призовой фонд – 600 000 рублей.

Регистрация до 28 февраля: https://cnrlink.com/kryptonitemlkatser

Приглашаем молодых специалистов и профессионалов в областях Data Science, Machine Learning и Computer Vision.

Тебе предстоит создать модель, которая умеет:
🔹 распознавать фальшивые изображения;
🔹 сравнивать реальные фотографии одного и того же человека;
🔹 различать снимки разных людей.

Участвуй и ты сможешь:
🔸 получить шанс разделить призовой фонд в 600 000 рублей;
🔸 разработать решения в области Machine Learning и Computer Vision;
🔸 прокачать скиллы в Computer Vision, Metric Learning и Face Recognition.

Организатор хакатона – ИТ-компания «Криптонит». Подписывайтесь на их телеграм-канал – там много интересного.

Этапы Kryptonite ML Challenge:
▪️ 1-28 февраля. Регистрация участников
▪️ 1 марта. Открытие хакатона
▪️ 1-9 марта. Работа над проектами
▪️ 16 марта. Питчинг и награждение победителей

Зарегистрируйся сейчас: https://cnrlink.com/kryptonitemlkatser

Реклама. АО НПК "Криптонит". ИНН 9701115253. erid: 2W5zFJTuCEc

02/24/2025, 13:19

t.me/datakatser/204

Katser

1 705 subscribers

1.2 k

dc041c5059e1ce1cf85916a6b1e8784c.mp4

Автоматизация разметки режимов работы флотомашины. Часть 1

Предположим, есть задача разметить (выдать временные интервалы и лейблы) состояния флотомашины, чтобы дальше обучить классификатор. Можно выделить 3 основных состояния:
🔴льет — вместе с пеной сходит пульпа
🔴сидит — мало пены, недостаточно активный пеносъем
🔴норма

Из данных доступны:
🟢уставки/факт по уровню пульпы во флотомашине, расходу воздуха, некоторые другие сигналы (ток импеллера, открытие дарт-клапанов и тд)
🟢признаки CV (стандартный набор: количество пузырей, средний размер, скорость и тд)
🟢исходный видеопоток с возможностью записи видео и периодических картинок

Варианты решений:
1️⃣Первое, что хочется сделать — записать бесконечно долгое видео и отдать на разметку кому-нибудь, чтобы вернули периоды времени и лейблы режимов. Можно будет нарезать и преобразовать исторические данные в таблицу с 3 классами. А дальше — fit-predict.

2️⃣Если мы экономим место на диске, время и деньги на разметке, или нам сложно доставать видео файлы из какого-то закрытого контура, то можно посадить кого-то смотреть на видеопоток в режиме реального времени и точно так же записывать интервалы с лейблами. Дальше нарезаем данные и fit-predict.

3️⃣Попробуем еще сэкономить время и автоматизировать процесс: можно визуально смотреть на важные признаки, говорящие об изменении режима (скорость, количество пузырей, какие-то более сложные детекторы). Вручную нарезать интервалы в соответствии с признаками. Просмотреть видео/фото каждого интервала (на всякий случай) и назначить лейблы. Дальше готовим данные и fit-predict. Правда будет хромать точность разметки у такого метода.

4️⃣А если максимально все автоматизировать и сэкономить?
• Сохраняем не видеофайлы, а картинки или периодические короткие (5 секунд) видео (например, раз в 1-5 минут).
• Для сегментации сигналов давайте брать исходные сигналы (CV или другие параметры) и использовать ruptures для получения интервалов. Чтобы ruptures настроить, можно использовать ground truth разметку из пунктов выше.
• Полученным временным сегментам присваиваем ранее собранные изображения/короткие видео (могут лежать в отдельной папочке с айди интервала).
• Отдаем на разметку, где задача у каждого интервала просматривать файлы в папке (картинки или видео) и назначать класс.
• Если уже есть какой-то классификатор, выдающий вероятность отнесения к классу, то можно сократить кол-во проверяемых интервалов до тех, у которых средняя вероятность ниже порога (или любой другой ваш критерий). Те, в которых уверены, размечаем автоматом.

profit! Есть идеи, как еще докрутить?

Осталось разобраться, какой режим на видео🤔

02/21/2025, 07:32

t.me/datakatser/203

Katser

1 705 subscribers

485

🗺Карта инструментов Open Source для ИИ от российских команд

Карта open-source проектов России, дополняющая исследование коллег из ИТМО. Видел первую версию с ≈80 проектами, но недавно обновили, и теперь 128 проектов, включая SKAB✔️
Угадайте, сколько из них про промышленность? 2?😓

А еще в приложении к карте отдельно собрали профили некоторых участников команд на GitHub, HuggingFace, ResearchGate, Habr и других платформах.

Карта | Приложение

02/18/2025, 07:04

t.me/datakatser/202

Katser

1 705 subscribers

485

🗣Туториал: как готовиться и выступать на конференции

Отличный перевод отличной статьи про подготовку докладов на конференции. Обязательно к прочтению неопытным спикерам или тем, кто хочет начать выступать.

Мне очень симпатичен подход, описанный в статье, хоть он и отличается от моего. Очень системно, выверенно, фундаментально, осмысленно — все, как я люблю, но не делаю. У меня так получается только с лонгридами на хабр. Например, несколько раз было такое, что до выступления остается 20 минут, а я доделываю слайды, после чего обещаю себе, что в следующий раз...🤤 Радует, что со временем я стал готовиться лучше и больше, но все равно недостаточно.

Что еще отмечу:
• Опыт выступлений неплохо компенсирует подготовку, что неоднократно меня выручало.
• Темы докладов у меня живут в голове по полгода минимум. Да и уже накопился бэклог тем, так что зовите на конференции
• В отличие от автора статьи слайды я осознанно делаю полезными автономно, чтобы и без просмотра видео (иногда недоступного) была польза.
• Даже российские топовые конференции требуют значительный уровень подготовки и проработки доклада. Например, иногда консультируют профессиональные ораторы, проводятся пара прогонов финальной версии доклада, а работа по докладу начинается больше, чем за полгода.

02/16/2025, 13:58

t.me/datakatser/201

Katser

1 705 subscribers

662

Экосистема для разработки и применения Computer Vision (CV) в промышленности

Выпустили с коллегами длиннопост на хабр о том, как мы "варим" (отсылка к процессу флотации) CV в промышленности. Но речь не про CV модели и решение бизнес-задач, а про процесс разработки решений с CV в промышленности, обычно скрытый от глаз. На мой взгляд про это гораздо меньше публичной информации, а зря. Хотя и объяснимо с учетом не самого высокого уровня зрелости ML команд в промышленности.

Запасаюсь попкорном и жду комментарии на хабре🙂

02/13/2025, 15:19

t.me/datakatser/200

Katser

1 705 subscribers

511

Siam ML Hack – хакатон по применению методов машинного обучения в обработке и интерпретации гидродинамических исследований скважин. Хотите попробовать себя в нефтесервисной отрасли и поработать с реальными данными? Регистрируйтесь на соревнование до 27 февраля: https://cnrlink.com/siammlhackkatser

Организатор — нефтесервисная компания «СИАМ». Специализация — гидродинамические исследования скважин и пластов, поставка исследовательского оборудования, разработка программного обеспечения.

Зачем участвовать?
Нефтяная отрасль обладает большим потенциалом для применения методов машинного обучения в анализе данных. В этом секторе сконцентрированы огромные объемы информации, что открывает широкие возможности для автоматизации и оптимизации процессов.

Гидродинамические исследования — небольшая, но важная часть нефтяной промышленности. Здесь используются данные о давлении, температуре, характеристиках скважин и другие свойства, которые служат основой для дальнейшего анализа.

Задача ML-разработчиков – выделить ключевые паттерны, аномалии и границы полезных интервалов. В процессе вы научитесь понимать специфику данных и познакомитесь с реальными задачами нефтесервисной компании.

Треки хакатона
1️⃣ Обнаружение бинарных характеристик в данных. Необходимо разработать модель для распознавания ключевых паттернов и их характеристик в дискретных данных, отображаемых на специализированном графике.
2️⃣ Выделение полезных данных для анализа. Цель — разработать алгоритм, который выявляет самые информативные участки временных рядов и четко определяет их начало и конец, чтобы в дальнейшем проводить более глубокий анализ.

Почему это интересно?
🔹 Призовой фонд – 1 000 000 рублей.
🔹 Работа с реальными массивами инженерных данных, которые нефтесервисные компании используют для принятия решений.
🔹 Получение полезных навыков: обработка шума, разработка устойчивых моделей и решение задач на стыке инженерии и науки.
🔹 Получение опыта работы с инженерами-нефтяниками и экспертами компании «СИАМ»

Таймлайн
▪️ 22 января – 27 февраля. Регистрация.
▪️ 21 февраля. Обзор задач, ответы на вопросы на митапе.
▪️ 28 февраля. Старт работы над решениями.
▪️ 19 марта. Награждение победителей.

Примите участие в Siam ML Hack, регистрация открыта до 27 февраля: https://cnrlink.com/siammlhackkatser

Реклама. ООО "Сиам Мастер". ИНН 7017043407. erid: 2W5zFHKp2Fz

02/13/2025, 12:05

t.me/datakatser/199

Katser

1 705 subscribers

387

Как стать лидом и быть эффективным. Часть 2.2
Часть 1, часть 2.1

6️⃣Очень важно общение с фабрикой. Абсолютна недопустима ситуация, когда на фабрике никто не знает тим-лида.

7️⃣Лид должен организовать работу так, чтобы во время запусков не было необходимости постоянно мониторить работу решения и вручную вмешиваться в процесс. Для этого необходимо подготовить ряд аналитических инструментов, которые позволяют:
• Отслеживать общие метрики работы решения, направлять уведомления, если они выходят за допустимые границы
• Отслеживать промежуточные метрики работы решения, которые свидетельствуют о том, что в процессе есть проблемы, которые через некоторое время скажутся на показателях. Направлять уведомления, если промежуточные метрики выходят за допустимые границы.
• Определять последствия вмешательства алгоритма. Определять, привело ли вмешательство к ожидаемому эффекту или нет. Аналогично по нашим ручным вмешательствам в процесс.
• Определять необычные ситуации на процессе, при которых действия алгоритма не дают ожидаемого эффекта. Искать, как можно эти ситуации отличить по входящим параметрам.
• Проводить регулярную аналитику по прошедшему запуску, отслеживать, какие были проблемные моменты, когда алгоритм отработал хуже, чем ожидалось.
• Проводить аналитику по вмешательствам операторов. Определять влияние вмешательств на показатели процесса. Автоматически находить моменты, когда управление оператора отличалось от наших правил, при этом дало положительный результат.
• На основании статистики за длительный период определять, какие типичные вмешательства операторов не дают ожидаемого эффекта, чтобы на основании этого сформировать правила по узлам, в которые операторы могут / не могут вмешиваться.

Необходимо обучить команду работе с этими инструментами, поставить эту работу “на поток”, чтобы она проходила без участия лида.

8️⃣Важно взаимодействие с собственной командой:
• Иметь понимание на старте, сколько людей нужно и с какими компетенциями
• Если по ходу проекта оценка изменилась, делать запросы на новых людей, добиваться того, чтобы их дали, подключать РМа
• Не бояться расставаться с людьми, которые не приносят пользу проекту
• В каждый момент времени понимать, чем занят каждый член команды
• Четко понимать приоритеты, не давать людям уходить в рутинные задачи, когда важные задачи не сделаны
• Понимать сильные и слабые стороны каждого

9️⃣Также у лида должно быть четкое представление, как он собирается передавать решение на поддержку:
• Как сделать так, чтобы за решением не нужно было постоянно наблюдать и вмешиваться вручную, чтобы не терять эффект
• Какие управления мы передаем оператору, в какие запрещаем оператору вмешиваться, по какому принципу устроено это разделение
• Какие метрики эффекта от решения, как их можно автоматически считать
• Как понять, что повлияло на эти метрики
• Какие действия требуются от команды поддержки, чтобы передать решение на поддержку

❓Ну как вам? согласны/не согласны?

02/11/2025, 15:04

t.me/datakatser/198

Katser

1 705 subscribers

551

Как стать лидом и быть эффективным. Часть 2.1
Часть 1

Делюсь бесценным материалом моего коллеги — Виктора Коренного. Поможет примерить на себя роль тимлида (на проектной деятельности в промышленности), если вы только планируете им стать. Далее исходный текст.

Главная ответственность тим-лида — отвечает за результат проекта, т.е. за эффект.

Что важно для идеального тим-лида:
1️⃣Фокус на результат. Самое главное — правильная расстановка приоритетов. Всегда хочется позаниматься чем-то простым и приятным, но здесь нужно решать сложные задачи, а именно — искать пути достижения эффекта.

Чтобы решать такие задачи, нужно очень сильно хотеть выиграть. Здесь не сработает никакая другая мотивация. Нужно быть лидером, проявлять инициативу, брать на себя ответственность, не сдаваться и не отступать после первых неудач. В таком деле они неизбежны.

2️⃣В любое время дня и ночи тим-лид должен иметь ответы на следующие вопросы:
• Дает ли решение эффект?
• За счет чего достигается эффект?
• Какие гипотезы в работе для повышения эффекта?
• Какие гипотезы будут в работе в ближайшие 2 недели для повышения эффекта?
• Что еще можно попробовать?

Тим-лид должен иметь четкое видение образа результата работы логики алгоритма:
• Целевое состояние системы
• Критерии оценки отклонения текущего состояния от целевого
• Недостающие измерения
• Чем их можно компенсировать / чем можно пренебречь
• Работает ли фабрика на это целевое состояние. Если нет, в каких точках. Эти точки (как технологические, так и организационные) и есть потенциальный источник эффекта.

3️⃣Из всего, описанного выше, заметно, что тим-лид одновременно выполняет множество задач. Соответственно, на написание непосредственно кода у него остается не так много времени, как у менее сеньорных ребят. Но лид должен понимать кодовую базу, уметь ставить задачи и контролировать результат, при необходимости сам писать код.

4️⃣В организации работы должна быть плотная связка тим-лид — РМ (project manager). Тим-лид должен быть главным заказчиком для РМа в части ресурсов. Например:
• Мне нужно, чтобы все DSы выехали на площадку на месяц и не вылезали оттуда, пока не будет достигнут эффект.
• Мне нужно, чтобы с фабрики нам передали такие-то данные для анализа или отдали нам такое-то управление или чтобы операторы не вмешивались в такие-то управления.

5️⃣Запрос на ресурсы нужно формулировать от результата: нам не хватает таких-то датчиков / управлений. Сейчас мы из-за этого теряем эффект. Вот примеры: 1, 2, 3. Если эти датчики / управления будут у нас, будет лучше, потому что… 1, 2, 3.

ОБЯЗАТЕЛЬНО: после того, как фабрика выполнит наше пожелание, показать к чему это привело. Сработала ли наша гипотеза. Поблагодарить фабрику.

Вообще любые запросы нужно формировать с конкретными цифрами. Например, если мы хотим, чтобы нам разрешили отклоняться от текущего регламента:
• на сколько максимально мы можем отклониться
• на какой период времени
• по какому критерию можно понять, что это отклонение не оказывает негативного влияния на технологический процесс. Допустимые границы значений этого критерия.
• в какой ситуации оператор может вмешаться, в какой не должен вмешиваться
• какие еще действия требуются от оператора (например, какие регуляторы должны быть в автомате)
• на какой срок проводим эксперимент
• по какому критерию будем мерить эффект от эксперимента
И далее, если эксперимент был удачным, просить поменять регламент.

Продолжение в следующем посте👇

02/11/2025, 07:32

t.me/datakatser/197

Katser

1 705 subscribers

611

📊 Когда 8 лет занимаешься временными рядами...

Позаимствовано у Jakub Figura из linkedin

02/09/2025, 17:31

t.me/datakatser/196

Katser

1 705 subscribers

553

flotation.mp4

🫧Машинное обучение для флотации

Дополню отчет из этого поста кейсами по флотации: все-таки очень популярный кейс, неплохо решаемый с помощью ML и data-based подходами.

DS/ML задач на флотации может быть сразу несколько:
🔘Оптимизация процесса, включая советчики и автоматическое управление
🔘CV для выделения параметров пеносъема (детекция и трекинг)
🔘Прогнозирование технологических показателей, например, качеств концентратов и хвостов (обычно они доступны раз в 10-60 минут, а лабораторные данные 2-3 раза в сутки)
🔘Корректировка показателей курьеров (РФА-анализаторов)
На самом деле, формулировок задач может быть много. Например, на недавнем хакатоне норникеля были такие: "поиск наиболее эффективных диапазонов управления" или "детектирование загрязнение камер".

Некоторые мысли по задаче оптимального управления флотацией:
🟢Именно эта задача из перечисленных выше дает наибольший эффект на извлечение (именно это является целью на флотации).
🟢Эффекты могут достигаться за счет стабилизации и наращивания потоков; поиска оптимального баланса между операциями; более оперативной отработки критических ситуаций; более частого и плавного (постоянное нахождение в оптимальной зоне) управления.
🟢Для решения задачи необходимо хорошее оснащение фабрики (расходомеры, курьеры, датчики пеносъема), а вот камеры и CV совсем не обязательны (хотя и могут заменить отсутствующие датчики или дать доп эффект)
🟢Алгоритмы управления флотацией могут быть как в виде советчика, так и в режиме автоматического управления (закрытый контур). Хотя советчик, по моему мнению, работает хуже, а иногда не работает (=не дает эффект) или не приживается совсем.
🟢Замену флотаторов/операторов сделать сложно, хотя и не невозможно, то есть достичь аптайма в 100% надо постараться (долго и дорого), потому что на флотации большое число нештатных ситуаций.
🟢Я видел несколько заявлений о достижении эффекта в 2%+ на извлечении в маркетинговых презентациях, но на более-менее современных фабриках это практически недостижимый эффект (хотя посчитать можно по-разному).

Примеры решения задачи, а также мой опыт и опыт коллег:
🔴Трекинг множества объектов без разметки или как следить за пузырьками во время пенной флотации. Алексей Клоков [habr], [paper]
🔴Мониторинг на флотации. Скорая оптимизационная помощь. Иван Запорожцев [youtube]
🔴Машинное обучение для оптимизации флотации. Юрий Кацер [youtube] + бонусом научная статья по нашему решению на еще одной фабрике (пишите в комментах, если нужен файл статьи).

Еще недавно узнал про флотацию и классификацию в нефтянке (очищают техническую воду от примесей).

ПС Планирую в течение пары месяцев написать большой пост про управлению флотацией на хабр, stay tuned.

02/06/2025, 07:01

t.me/datakatser/195

Katser

1 705 subscribers

1.3 k

📹Сегментация грязи на камерах

Задача актуальная на производствах из-за пыли, капель от техпроцесса или даже от мытья/обработки оборудования цеха. Загрязнение влияет на качество моделей машинного обучения и может ухудшать управление производственным процессом. Чтобы решать проблемы, на камерах могут ставить стеклоочистители или умыватели, но наиболее простым способом является ручная протирка камер. Для запуска процесса очистки и нужны "детекторы грязи".🧹

Делюсь полезным материалом для начинающих специалистов с решением задачи для флотации на основе сегментации и Unet.

Добавлю, что задача может решаться и как детекция. А наиболее простым, но вычислительно эффективным способом (часто вылезают ограничения на вычислительные мощности) решения является сборка "детектора грязи" на основе фичей из основной модели, типа трекинга пузырьков.

Я и сам недавно участвовал в решении такой задачи на реальном производстве. Возможно, по итогам выйдет интересная научная статья.

02/04/2025, 07:01

t.me/datakatser/194

Katser

1 705 subscribers

560

Мой отзыв на книгу «Переговоры с монстрами» И. Рызова

tldr: неоднозначно, если есть лишние деньги - купить и прочитать можно, читается быстро, но не "мастхэв".

Кстати, книгу прочитал по совету из книги «Мама, я тимлид! ... », но пока читал, несколько раз удивился, как такое можно рекомендовать. В конце чтения я видно дошел до стадии принятия, поэтому мнение сгладил.

Мои мысли: цель книги по заявлению автора – научить перестать бояться «монстров» на переговорах ("монстры не так страшны" и "монстры рождаются в нашей голове"), но лично мне были гораздо полезнее прикладные советы, что делать в каких ситуациях и как распознавать поведение людей в переговорах. На примерах из книги очень хорошо узнаются и вспоминаются ситуации из жизни. Однозначно соглашусь, что вся наша жизнь состоит из переговоров и живем мы в соответствии с тем, как умеем их вести.

Из минусов: местами читается сложно, встречаются орфографические ошибки и теряется смысл посреди предложений или абзацев текста. Раза 3 не мог понять смысл написанного даже после того, как перечитал пару раз. Надеюсь, что это болячки первого издания, и после пары переизданий станет лучше. Цельность текста тоже не всегда прослеживается, как будто книга собрана из набора отдельных статей. Глобальный смысл понять не мешает, но читать местами больно.

Итого для себя: в ближайшем будущем прочитаю еще раз, выделю для себя тезисно полезные моменты и вероятно забуду про существование книги.

02/02/2025, 10:05

t.me/datakatser/193

Search results are limited to 100 messages.

Some features are available to premium users only.

You need to buy subscription to use them.

Filter

Reset filters

Publication date

Search in file name

Message type

Repost

Original

Deleted message

Message is not deleted