Your trial period has ended!
For full access to functionality, please pay for a premium subscription
DA
Дата канальи — про «специалистов» в данных / ML / AI
https://t.me/datarascals
Channel age
Created
Language
Russian
2.09%
ER (week)
10.05%
ERR (week)

Перлы из жизни аналитиков и ds — от безобидных заблуждений до откровенного надувательства. Посвящается AI-евангелистам (любителям интеграций формул в экселе и LLM). Для связи @NikitaZelinskiy

Messages Statistics
Reposts and citations
Publication networks
Satellites
Contacts
History
Top categories
Main categories of messages will appear here.
Top mentions
The most frequent mentions of people, organizations and places appear here.
Found 83 results
Вчера на конференции Data Fusion мне задали вопрос из зала — почему так трудно попасть на стажировку в российские бигтех-компании?
И почему вакансий джунов в открытом доступе почти нет? 😡

Ответ не самый очевидный — потому что компании активно участвуют в образовании 🤓.
(Более того, наши законотворцы обсуждают новую инициативу — обязать все крупные ИТ-компании отправлять экспертов преподавать в ВУЗы под угрозой лишения ИТ-аккредитации)

Если речь про нашу компанию (а мы сейчас называемся MWS)
Все ключевые активы в области информационных технологий: МТС Digital, МТС Cloud, Big Data МТС, MTS AI, Visionlabs – объединены в единую технологическую компанию МТС Web Services (MWS)
то мы:
⁃ проводим ML-тренировки на ФКН ВШЭ
⁃ запустили ИИ-магистратуру на ФКН ВШЭ
⁃ вместе со Сбером и Яндексом вкладываемся в ВШПИ МФТИ, за нами MLный трек
⁃ третий год ведем ШАД MWS

И это только те проекты, где я деятельно участвовал (где-то запускал, где-то подхватывал -- здесь спасибо Вите Кантору и нашему Центру Образования -- прежде всего Кате Карцевой и Алине Веденской что втянули и максимально поддерживают меня).

Так откуда же нам брать стажеров как не с олимпиад и образовательных программ, в которых мы участвуем и уверены? А когда они подрастают до джунов -- при возможности их же и берем в штат.

Но даже такой хвастливый пост как этот может нести в себе пользу — присмотритесь к Школе Аналитиков Данных MWS. Если все-таки есть желание перекатиться в ML, например, из другой профессии, и иметь все шансы на стажировку в MWS уже к восьмому месяцу обучения.

Следующий набор осенью (обычно конец октября — начало ноября), учиться год — 2 занятия в неделю по три часа после работы, преподают наши ребята, делали с душой )

PS

Сама конференция оказалось с загадкой 😵‍💫
-- Прихожу в первый день на сессию с Ким и Набиуллиной — яблоку негде упасть, люди в проходах стоят. Думаю — ок, бизнесовая конфа.
-- Прихожу на сл день на сессию по RAG — снова все забито 😂

Первый раз вижу такое чтобы организаторы смогли сделать интересную конференцию и для технарей и для бизнесов, очень круто вышло 🏆🏆🏆
04/18/2025, 19:00
t.me/datarascals/222
обратно можно прямые взять
04/16/2025, 16:07
t.me/datarascals/221
Только сейчас понял что у меня их две 🤷‍♂️
04/14/2025, 11:17
t.me/datarascals/220
Нет-нет и попадаются на глаза посты про рост контекстного окна LLM.

И восторженные про 10М токенов и критический ответ про то что не все эти токены будут иметь одинаковую важность для модели и RAG все равно будет жив.Что объединяет авторов таких постов ? Сейчас покажу.

На днях надо было собрать RAG для демонстрации — просто обновить свой прошлогодний семинар. Но раз каждый день в тг поток новостей про новые перехаи ллмок — решил посмотреть как продвинулись методы их оценки.

Потыкавшись по репозиториям Ильи и Константина нашел библиотеку со странным названием giskard ровно для «evaluation of AI systems» как гласит этикетка.

Ну ок, парни используют, 4,5 тыс звездочек на github — что может пойти не так?

Здесь небольшая вставочка — коль скоро RAG про поиск релевантного чанка (кусочка информации) и генерацию ответа на основе него (а чанк добавляется в контекст LLM) — то и метрик можно придумать массу (отдельно на то насколько релевантные чанки достаются, насколько сгенеренный ответ им соответствует и тд)

Однако, все эти подсчеты требуют знания правильных ответов (да еще и какого-то показательного набора вопросов) — даже для LLM as a Judge. Здесь и возникает вопрос а как именно пользователь будет искать, как формулировать вопрос, каких типов вопрос больше и можно ли их вообще типизировать и пр.
Вот с этим (нагенерить вопросно-ответные пары для офлайн-теста RAG-системы) giskard и помогает — достаточно сделать

from giskard.rag.question_generators import complex_questions, double_questions, distracting_questions, situational_questions, simple_questions

а затем

knowledge_base = KnowledgeBase.from_pandas(df)

testset = generate_testset(
knowledge_base,
question_generators=[simple_questions, complex_questions, double_questions, distracting_questions, situational_questions],
num_questions=200,
language='ru',
agent_description=«….»
)

Понятно, что как и в langchain, магии никакой нет, а хитроумные методы часто просто подобранные промпты.

Вот, например, скрипт для генерации SimpleQuestion .
Не смертельно большой же промпт?

Не чуя подвох 😆🫣 я запустил (gpt4o) на генерацию вопросов для тестового датасета.

И на 71 вопросе я получаю:
2025-04-08 01:28:44,092 pid:37078 MainThread giskard.rag.question_generators.situational_questions WARNING Encountered error in situational context generation: litellm.RateLimitError: RateLimitError: OpenAIException - Error code: 429 - {'error': {'message': 'You exceeded your current quota, please check your plan and billing details. For more information on this error, read the docs: https://platform.openai.com/docs/guides/error-codes/api-errors.', 'type': 'insufficient_quota', 'param': None, 'code': 'insufficient_quota'}}. Using default situational context instead.

И отрицательный баланс на счете — 30 баксов как с куста.
На 70 вопросах!!! 😰😱😱😱😱🤯😵‍💫😡🤬🤬🤬

WTF ???

Конечно, когда есть железо, лучше разворачивать модели локально и не тратиться на API.

Но читая новость про контекст в 10М токенов я понимаю почему производителям LLM это может быть выгодно 🔪. Представьте что будет если вы стучитесь по API и платите за число токенов, а такая большая модель еще и в CoT уйдет 🫣. Выглядит происходящее сейчас с API сродни бесплатной раздаче наркотиков, но ценники в итоге будут бить любые фантазии.

Улыбаемся, машем, копим, ищем эффективные решения, радуемся что часть моделей-таки выкладывают в опенсорс и огромное коммьюнити работает над тем как их сжимать / дистиллировать / запускать на не совсем космолетах.

PS тарификация API по числу токенов примерно у всех


Ах да — авторов постов объединяет доступ к условно-бесплатным огромным корпоративным кластерам.
04/11/2025, 09:01
t.me/datarascals/219
Пример «делайте интерактив» вместо «рисуйте презентацию» от Миши Степнова

Парни занимались бесчисленной сборкой PoC на модном тогда направлении GenAI (в 20-21 годах, на минуточку) — немного музыку погенерить, где-то голову на изображении пересадить, помощника канальи сделать (который вместо манагера в почте будет отвечать либо «спасибо» либо «проработайте вопрос» 😂😂😂).

Как подвести итоги года работы команды, если весь год состоял из спринтов в разные стороны, конференций, презентаций, лихих кавалерийских наскоков?
Желательно чтобы после этого премии полились как комменты под постом про AI-продактов ?

Все любят подарки, а манагеры особенно, если это не дежурная бутылка / мерч / книжка из библиотеки большого банка (одной я палочку из Гарри Поттера подарил -- но то совсем другая история).

И вот Миша с парнями дарят своему шефу телефон (ибо нужен андроид, а у шефа айфон), а на телефоне файтер.

И в файтере шеф — читерский перс 💪, который раздает 🥊 другим топам 🤡 сериями до самого фаталити ☠️.

Естественно, в противники шефу выбрали его начальников и оппонентов 😁, добившись узнаваемости персов по лицу 🫣

Вот и догадайтесь, у кого в департаменте была годовая премия x2.

Растите продуктовые метрики и прокрашивайте A/B, коллеги 🤓😆🏋‍♂️

А на видео -- битва двух непримиримых противников -- CDS (AI) vs CTO
04/08/2025, 17:51
t.me/datarascals/218
Хотя у меня уже давно поменялась фотография и должность, все равно стараюсь не пропускать Data Fusion (разве что в том году наложилось с MachinesCanSee). В этом году думал отсидеться в панели, но в итоге втянули в дебаты, узнаем какой из меня спорщик 😂

А с докладом за BigData МТС будет отдуваться Серега Кузнецов — это CTO нашей гордости — RecSys платформы. Думаю оба дня буду на конфе, про интересное здесь напишу. Если кто хочет очно пересечься / познакомиться — буду рад, приходите 🍺

PS: Если кто потеряется / стесняется — орги поддались общему тренду и запилили бота для знакомств — потестим )
04/07/2025, 13:27
t.me/datarascals/217
Model Context Protocol – незаменимый инструмент для ML-соревнований, где нужно использовать всю мощь LLM. С помощью нового стандарта подключения AI-ассистентов к бизнес-приложениям от Anthropic ты сможешь интегрировать ИИ в свой проект – идеальное решение для хакатона, где время ограничено.

В новой статье разбираемся, как устроен протокол, как поднять собственный MCP-сервер и использовать его в IT-соревнованиях. Ты узнаешь про:
1. Архитектуру Model Context Protocol.
2. Основные возможности стандарта.
3. Примеры реализации: от простых к сложным.

Сосредоточься на создании уникального AI-ассистента. Как это сделать? Ответ в статье: https://cnrlink.com/mcpitonecupdatarascals

А проверить всю мощь MCP можно на IT_ONE Cup. ML Challenge. Зарегистрируйся, выбери один из трех треков и раздели призовой фонд в 1 500 000 рублей.

MCP станет одним из важных инструментов для разработки ИИ-помощников в задачах соревнования:
1. Динамические контекстные подсказки для системного аналитика.
2. AI-генератор дизайн-макетов по описанию требований.
3. Система визуализации BPMN-диаграмм.

MCP позволит использовать локальные модели, которые сделают решения более автономными и безопасными – их будет легче адаптировать под задачи соревнования.

Регистрация открыта до 11 апреля включительно: https://cnrlink.com/itonecupmldatarascals
04/04/2025, 09:32
t.me/datarascals/216
Model Context Protocol – незаменимый инструмент для ML-соревнований, где нужно использовать всю мощь LLM. С помощью нового стандарта подключения AI-ассистентов к бизнес-приложениям от Anthropic ты сможешь интегрировать ИИ в свой проект – идеальное решение для хакатона, где время ограничено.

В новой статье разбираемся, как устроен протокол, как поднять собственный MCP-сервер и использовать его в IT-соревнованиях. Ты узнаешь про:
1. Архитектуру Model Context Protocol.
2. Основные возможности стандарта.
3. Примеры реализации: от простых к сложным.

Сосредоточься на создании уникального AI-ассистента. Как это сделать? Ответ в статье: https://cnrlink.com/mcpitonecupdatarascals

А проверить всю мощь MCP можно на IT_ONE Cup. ML Challenge. Зарегистрируйся, выбери один из трех треков и раздели призовой фонд в 1 500 000 рублей.

MCP станет одним из важных инструментов для разработки ИИ-помощников в задачах соревнования:
1. Динамические контекстные подсказки для системного аналитика.
2. AI-генератор дизайн-макетов по описанию требований.
3. Система визуализации BPMN-диаграмм.

MCP позволит использовать локальные модели, которые сделают решения более автономными и безопасными – их будет легче адаптировать под задачи соревнования.

Регистрация открыта до 11 апреля включительно: https://cnrlink.com/itonecupmldatarascals
04/03/2025, 21:08
t.me/datarascals/215
Занесло вчера в жюри хакатона.

Как всегда — 10 финалистов, комиссия из таких же как я случайных людей (как правило даже дальше от DS чем сами участники — студенты-младшекуры), есть лидерборд с результатами модели на прайвате, и настает время защит.

Ребята рассказывают свои решения, каждый свой кусочек командной презентации, какой-то анализ, файндинги если есть, как модель выбирали, что в итоге получилось. Потом вместе отбиваются от вопросов 💪.

Есть команды посильнее, есть послабее (не поняли что оверфитнулись имея 99,6% «точности»?! в регрессии — на прайвате закономерно оказались последними 😆), но не суть.

Главное наблюдение — комиссии почти параллельно какой у вас результат на лидерборде.

Потому как метрики — это что-то заумное, а вот понятные графики 🤓, уверенный тон 😎 (!!!), хоть какая-то структура презентации, желательно создающая ощущение понятности для члена комиссии 🤡 — прям ключевое.

Скажу, что корреляция (ранговая, для душнил) лидерборда и итогового результата — очень маленькая, а первое место на лидерборде не гарантирует попадание даже в топ-3 по итоговому рангу 🤷‍♂️.

Ладно, это игрушечный (почти) пример, мб на работе по-другому?

держи карман шире, ага

Хотя счет же не в DS-метриках, а в конкретных заработанных рублях.

Вспомнился случай.
Нанял я как-то к нам толкового парня — выпускника мехмата и MADE (Макс, привет тебе в твоей Канаде! 🇨🇦) с нулевым опытом.

Попросил лида его покурировать на несложной задаче — классификации обратной связи в кампейнинге.

То есть причины отказа клиентского менеджера от отработки лида (либо отказа уже клиента от предложения) распределять по категориям (для этого правда сначала нужно понять что за категории, как они могут быть устроены, мб создать иерархию) — но это все достаточно проходная задача:

⁃ Разобраться с категориями по историческим данным
⁃ Попросить фронтов сделать возможность категории отмечать галочку
⁃ Обработку поля с комментарием все равно оставить — но повесить модель-классификатор.

Не без приключений (детали для краткости опущу), за пару-тройку итераций, парни справились и мы включили этот проект в ближайшее демо 🏆.

На демо всем манагерам интерактивность прям очень понравилась — а давайте напишем в комментарий к лиду «пиво, чипсы, воды» — какая будет причина отказа? Ну и прочие «смешные» 🙄варианты комментариев.

Проходит месяц, премирование тогда было квартальным и наставала пора расставлять оценки ребятам в моем кластере (а там, кроме DS, инженеры, аналитики, сопровожденцы, девопсы, mlопсы, PO, ораклисты и BIщики и тд).

Прошло лет пять, но я до сих пор помню какой разнос я получил за то что поставил «недостаточно высокую» оценку тому «умному DS, который сделал классную модель», при том что в том квартале были реально крутые результаты и по сложности и по фин эффектам 😰.

Поэтому вместо банального «рисуйте классную презентацию» дам чуть менее банальный совет — делайте интерактив, чтобы ваш каналья-манагер что-то осмысленное мог руками поменять (инфляцию, прогнозную цену на продукцию и пр и пр) и получить сиюминутный результат -- в общем, почувстввал себя ребенком и поиграл в новую игрушку 🥁.

Успех DS в бизнесе — к сожалению, гораздо чаще про сторителлинг и игрушки-поделия чем реально трансформация бизнес-линий / процессов с большими эффектами. Увы
04/03/2025, 08:31
t.me/datarascals/214
На днях поменяли программу ШАД
Аналитики попросили
Дерево метрик? — очевидное
Универсальный пайп аналитика???
Redash?
Искали в общем что-то полезное.

Без чего аналитик не сможет?
У нас-таки нашелся ответ

Решили добавить колористику а-ля
А что — слайды они рисуют часто
Тем паче чувство прекрасного
И еще же фронты
Набросали примерно структуру
Осталось найти преподавателя

В личке отвечу, пишите
04/01/2025, 08:33
t.me/datarascals/213
Карточка на еду? 🤔
03/28/2025, 15:10
t.me/datarascals/212
В комментах под постом про связь оптимизации BCE и ростом NDCG меня попросили рассказать про связь минимизация логлосс и максимизация ROCAUC 🤓

Начну издалека и разобью ответ на несколько постов.

Не из вредности, а из-за того что в ROCAUC как правило, не углубляются и оттого возможны оптические иллюзии (назовем пока так) 🌈

Не верите?

Ну вот для разминки 🏋‍♂️ пара задачек от Александра Дьяконова

Раз
Два

И одна прямиком из статьи:

Если ваш алгоритм максимизирует ROCAUC, максимизирует ли он одновременно площадь под кривой Precision-Recall (AUCPR или AP == average precision)?

Короткий ответ — нет

Хотя кривые из пространства (FPR, TPR) однозначно переводятся в кривые из пространства (Recall, Precision), более того, если одна ROC-кривая везде лучше (или равна) другой (слева-вверху, в литературе называют dominate 🥊) то и в координатах (Recall, Precision) это сохранится, причем наоборот тоже работает.

Пример двух пересекающихся ROC-кривых, в которых при переводе в (Recall, Precision) радикально меняется соотношение площадей под графиками в статье The Relationship Between Precision-Recall and ROC Curves (2006)

Конечно, таких фокусов хочется избежать 🧙‍♂️, для этого все же нужно вспомнить про задачу — редко когда нам надо одинаково хорошо уметь ранжировать по всей выборке, чаще именно ранжировать нужно уметь в каком-то регионе (например по FPR), поэтому у ROCAUC множество модификаций — PAUC (Partial AUC), TPAUC, OPAUC, SAUC, gAUC (generalised AUC), GAUC (group AUC), GAUC@k, LAUC@k (limited AUC) и всякие другие.

Здесь снова вспоминается тезис Александра Дьяконова из неопубликованного (а мб он уже опубликовал?) учебника о том что все банки используют GINI (он же ROCAUC) в задаче PD (определения вероятности наступления дефолта), а ROCAUC не то чтобы в этом случае сильно подходит — IMHO, ровно потому что ранжирование интересно уже выше отсечки одобрения кредита (и там калиброванный PD войдет уже в EL).

Но не скорингом единым — PAUC и другие модификации широко используются в рекомендашках и в поиске (да, и в RAG тоже -- на этапе retrieval).

Если хотите с азов 💾, то про сами сами ROC-кривые, их доверительные интервалы, обобщения на мульткласс можно почитать здесь а про связь ROCAUC с вероятностью корректно ранжировать — в журнале по радиологии за 1982 год.

PS: Если с researchgate сложности - маякните единорожкой, выложу pdf’ки в комментариях

PPS: про связь ROCAUC и логлосс уже в следующем посте, пока лишь намекну статьей про DeepFM (таб. 2)

PPPS: уже почти не удивляюсь когда вижу статью с названием Deep ROC analysis <...> в приличном журнале за 2021 год 😱, вот и вы не удивляйтесь этому посту 😆
03/25/2025, 23:19
t.me/datarascals/211
В комментах под постом про связь оптимизации BCE и ростом NDCG меня попросили рассказать про связь минимизации логлосса и максимизации ROCAUC.

Начну издалека и разобью ответ на несколько постов.

Не из вредности, а из-за того что в ROCAUC как правило, не углубляются, и оттого возможны "оптические иллюзии".

Не верите?

Ну вот для разминки пара задачек от Александра Дьяконова

Раз
Два

И одна прямиком из статьи:

Если ваш алгоритм максимизирует ROCAUC, максимизирует ли он одновременно площадь под кривой Precision-Recall (AUCPR или AP == average precision)?

The Relationship Between Precision-Recall and ROC Curves (2006)

Короткий ответ — нет, хотя кривые из пространства (FPR, TPR) однозначно переводятся в кривые из пространства (Recall, Precision), более того, если одна ROC-кривая везде лучше (или равна) другой (слева-вверху, в литературе называют dominate) то и в координатах (Recall, Precision) это сохранится, причем наоборот тоже работает.
Пример двух пересекающихся ROC-кривых, в которых при переводе в (Recall, Precision) радикально меняется соотношение площадей под графиками в статье The Relationship Between Precision-Recall and ROC Curves (2006)


Про сами ROC-кривые их доверительные интервалы, обобщения на мульткласс можно почитать здесь
https://www.researchgate.net/publication/222511520_Introduction_to_ROC_analysis а про связь ROCAUC с вероятностью корректно ранжировать — здесь https://pubs.rsna.org/doi/epdf/10.1148/radiology.143.1.7063747 .

PS: Если с researchgate сложности - маякните единорожной, выложу pdf’ки в комментариях
03/25/2025, 19:52
t.me/datarascals/210
Их нравы 🤯
Но то что тестовое оплачиваемое -- горячо поддерживаю.

Источник
03/24/2025, 21:35
t.me/datarascals/209
Чуть не в тематике канала , но мимо вечного двигателя я пройти не смог 😂
03/24/2025, 08:12
t.me/datarascals/208
Когда на собеседованиях спрашивают про сильные стороны -- честно отвечаю что прокрастинация это моя сильная сторона.

Вот неделю откладывал добить текст статьи, а тут как раз свежий обзор вышел -- 22 часа назад. Не прошло и полгода 😆

Для тех кто далек от рекомендашек -- классический сюжет про здоровую прокрастинацию.

Желаю вам спокойных выходных без суеты🐳
03/22/2025, 06:38
t.me/datarascals/207
Отличные новости 🥳
Готовы записи выступлений ребят с нашего митапа!
Горжусь спикерами -- доклады реально были интересные 😎, причем для многих это один из первых опытов публичных выступлений, причем не на маленькую аудиторию -- человек 70-80 в зал поместилось 😊

Спасибо спикерам за доклады, гостям за классную дискуссию и команде организаторов за душевную атмосферу! 👏

UPD: Меня только что поправили -- было 105 человек оффлайн! 🔥
03/19/2025, 17:11
t.me/datarascals/206
Для тех кто не оценил лекцию -- ML-шутеечка (не судите товарища строго, 2017 год, но все же)

смотрите внимательно на схему
03/17/2025, 20:38
t.me/datarascals/205
Все-таки немного тот коллега публичен (напомню, что это самый синьорный DS из тех кого я встречал или про кого когда-нибудь слышал), почти случайно нашел лекцию с ним -- очень прям рекомендую -- квинтессенция опыта как раз для "пользователей AI/ML" и где подстелить соломки в AI-проектах
03/17/2025, 19:11
t.me/datarascals/204
AI-продакты – кто это? 👀

В последние несколько месяцев отовсюду идут запросы на них, от крупных банков, соцсети, финтеха и даже от железячных компаний.

Причем все хотят такого, такого, такого, и чтоб пробивной, и чтоб за бизнес, и чтоб проактивный, и чтоб в деталях понимал реализацию и заодно инженеров учил и сам проектировал и сам бюджет находил. И главное – за результат (продукт) целиком отвечал 🧚‍♂️. Восьмирукий Громозека, не меньше


Отвечаю обычно рекомендацией знакомых ML-лидов 🧑‍💻, но чаще всего они “оказываются недостаточно бизнесовыми” 🙅‍♂️, чего бы это ни значило (хотя обычно значит это примерно так – “сам придумай как нам заработать денег и потом еще докажи что ты их заработал”). И вроде похожая позиция раньше называлось CDO (в чьих обязанностях как раз управление данными и их монетизация), но нет – фокус именно на продукте, просто он может звучать достаточно широко, вроде придумай новый способ монетизации в рекламе 😆.


И вот что-то я в сомнениях, каков же портрет идеального кандидата и из кого такие ребята получаются 🤔.

Но что таких вакансий с каждым днем будет все больше, по крайней мере в этом году, сомневаться не приходится. 💯


А у вас есть знакомые AI-продакты?
Чем они занимаются?
Как доросли до позиции такой?

UPD только что в личку прислали в качестве примера ссылу на такую вакансию
03/15/2025, 22:17
t.me/datarascals/203
Сезон открыт 🦈
03/14/2025, 07:39
t.me/datarascals/202
Чем мне нравится преподавать на физтехе и в вышке — студенты могут задать вопрос, на который сходу и не ответишь.

Вот и сегодня c семинара по рекомендашкам я ушел с домашним заданием —


«есть ли теоретические предпосылки к тому что оптимизируя BCE мы растим nDCG?»


При том что рассказать про связь BCE с ROCAUC, Precision и Recall проблем не составило, здесь я задумался.

Сначала сделаю оговорку, что можно оптимизировать сразу аппроксимацию nDCG:

ApproxNDCG
NeuralNDCG

Для торча оба лосса есть в allRank
Для любителей TF

Итак, ответ на вопрос студента в этой статье с NIPS 2009 года

В уравнении (2) pointwise loss чуть в более общем виде написан, но сразу после формулы указано что функцией ф может быть и сигмоида (что и приводит нас к BCE), а далее несколько страниц доказательства связи минимизации лоссов с максимизацией ранжирующих метрик (для примера в статье взяли MAP и nDCG) -- ровно то что нужно!.

Приятного вечернего чтения!
Под формулы так хорошо засыпается 😴
03/12/2025, 22:59
t.me/datarascals/201
О чем был пост выше?
Сейчас объясню на другом кейсе

Итак, в лучших традициях «продуктовой культуры» корпораций в одной компании по схеме MVP (как ее понимал корпоративный PO) запускался продукт — продажа неких предметов по схеме BNPL = buy now, pay later (в рассрочку в бытовом ее понимании – формально эти понятия часто разделяют по тому кто на себя берет кредитный риск дефолта покупателя – сервис или кредитная организация, но сейчас не об этом).

Деньги имеют свою стоимость, поэтому маржа должна стоимость фондирования перекрывать.
Такие продукты содержат, очевидно, еще и кредитный риск -- ведь клиент может перестать выплачивать деньги, и такой долг придется отдавать на взыскание (тоже косты, которые надо бы заложить).

А еще в продукте операционные косты и косты на маркетинг 🤓

А маркетинг штука недешевая
И вот приходит PO в панике:

“Деньги на маркетинг в песок уходят, приходят заявки, но по 80% приходит отказ от провайдера скоринга (причину в ответе не сообщают — просто refuse). Скоринг мы закупаем у внешнего поставщика — потенциальный клиент заполняет паспортные данные и телефон, через API от поставщика получаем решение — отказ или аппрув (даже не скорбалл и не PD !!!). Cделайте быстренько свою скоринговую модель чтобы отказов было в разы меньше. Вот прям щаз!!!!”

🤡🐓😱

Задачка на арифметику (числа относительно условные) – если тысяча показов баннера стоит в среднем 30 рублей, конверсия в клик 0.3%, а в покупку 1% от кликов, сколько стоит один лид?

1000 рублей. Со ста тысяч показов (3 000 рублей) будет 300 кликов и 3 покупки.
На тысяч лидов нужен миллион рублей рекламы

Начинаю разбираться, и понимаю что аналитика в продукте нет.
Почему?

Да потому что ФЛК нет
ФЛК – это формат-логический контроль – то есть проверки на поля формы.
Например, что в поле с типом date нельзя строку вписать.
Для ДУЛ (документ, удостоверяющий личность) эти проверки легко гуглятся

Итак, что же собрали за первую тысячу заявок:
▪️Имя и отчество в поле “имя” (вроде Егор Егорович)
▪️Не сходится контрольная сумма паспорта
▪️Паспорт выдан в день рождения – например, BirthDate 1954-06-13 и IssueDate 1999-06-13 – такой паспорт считается недействительным
▪️В поле “фамилия” указан телефон или “5рапр”
▪️Несуществующий номер телефона
▪️Орган, выдавший паспорт гражданина РФ (тип документа) – “Мвд”, “ЕАС”, “ТП 16”
▪️Дата выдачи и дата рождения – одна и та же дата
▪️Латиница в ФИО в общегражданском паспорте (Vasiliy, Ruslan,etc)
▪️Серия паспорта 9876, остальные поля заполнены нормально
▪️Число вместо имени
▪️и всякое нецензурное 🤡

Как мог бы выглядеть процесс, если бы не сэкономили на консультации кредитчика (хотя бы знакомому пивка бы поставили):

1. Верификация ДУЛ и полей ввода (ФЛК)
2.Проверка в стоп-листах (террористы, обнальщики, судимость и пр.)
3. Модели определения мошеннических заявок
4. Модели вероятности дефолта (PD), размера убытка – Loss Given Default (LGD) – предмет все же можно изъять при неплатеже, и Residual Value Prediction (RVP) – цена будет зависеть и от износа и от рыночных условий
5. Проверка на открытые дела о банкротстве ФЛ
6. Данные по кредитной нагрузке и просрочкам (бюро кредитных историй)
7. Определение предельной долговой нагрузки
8. Вычисление EL (expected losses)=PD*LGD*EAD
9. Сравнение EL + Costs vs Profit
10.Политики управления портфелем, кредитной нагрузкой, графиком погашения, мониторинг портфеля и пр


Вот уж MVP так MVP 😆
И не стоит бросаться делать модель если ломается совсем в другом месте
03/12/2025, 13:11
t.me/datarascals/199
Когда у меня бессоница и закончился Мелаксен, я не считаю овец и не втыкаю в шортсы.

Таймкиллер должен быть каждый раз разный, вот сегодня вернулся к тому посту и поискал еще компаний, они с годами регистрации в ФНС:

ООО «Адзип» 2010
ООО «Онвог» 2003
ООО «Куни» 2005
ООО СПК «Анал» 2009
ООО «Чорт» 2024
ООО «Тудранктуфак» 2008
ООО "Нли Ю" 2016
ООО «Эс как доллар» 2017
ООО "ПОЦ" 2009
ООО "СИК" 2014 (азерб.)
ООО "Сиким" 1999 (азерб.)

а вот другое ООО "Сиким" 2012 года, просуществовавшее меньше суток: дата регистрации 15.10.2012, дата ликвидации 15.10.2012, потому их однодневками и называли

UPD чет вспомнился похожий кейс с физиками, на днях расскажу
03/10/2025, 00:55
t.me/datarascals/198
Вот смотрю на micrograd и думаю — может быть это и есть лучшая задача на собеседовании на MLE?

Сразу и кодинг проверяет и backprop, меньше ста строчек кода

Что думаете?

Для ленивых: 👍 -- хорошая идея, 🤔 -- плохая

UPD: А почему? неужто задачки с литкода лучше?
03/07/2025, 09:11
t.me/datarascals/197
Трусость в карьере DS

Несколько лет собирался с силами сделать операцию на перегородку, лор-врачей трусил с детства – правда было с чего – на картинке почти такая же сцена как мне аденоиды удаляли в горбольнице Твери в 1994 году (только там ремни были на подлокотниках, ноги привязывали простынями, а тазик для крови не висел на шее, а держала медсестра).

Вот сделал (кстати, если кому вдруг нужно – поделюсь контактом топового хирурга) и задумался насколько страх двигатель карьеры – и тут к месту пришелся относительно недавний кейс.

Дано – Middle+ DS, которого зовут на два проекта: первый про LLM-агентов, там сделано несколько прототипов, много хаоса и менеджеров в 4 раза больше чем трудяг (у семи нянек дите без глазу). Второй – в технически зрелую команду разбираться с новым доменом данных.

2 варианта – 2 FOMO – в первом очевидно легко быстро дорасти до руководящей позиции – новое хайповое направление, у бизнеса большой аппетит – точно можно расти вместе с командой. Когда еще такая возможность представится? Бонусом идет хорошее повышение со старта.

А во втором можно серьезно прокачаться (под чутким и внимательным руководством) и в NLP и в написании продового кода, и тоже боязно, что если пойти по первому треку – не у кого будет hands on учиться. Здесь повышение вроде тоже возможно, но не так определенно. И рост в синьора а не лида.

Что сам выберешь, что DSу посоветуешь? Пишите в комментарии – будет любопытно обменять мнениями.


PS:
Как по мне,страх – главная причина неудачи в карьере.
И он же главный двигатель вперед.

Очень боишься потерять работу – собери портфель, который платит тебе твой же оклад дивидендами / купонами. Или собери ачивок чтобы ее легче находить – места на Kaggle, публикации. Или другие активы – свои проекты / продукты, доли в стартапах, курсы и т.д.
03/05/2025, 10:07
t.me/datarascals/196
- Корпоративное обучение английскому и испанскому языкам
- Корпоративное такси
- Гибридный график
- Отсутствие бюрократии и дресс-кода
- Насыщенную корпоративную жизнь
- Возможность удаленной работы
- Офис в центре Алматы, Москвы или Удалённо


Вакансия # 3. Senior Product Analyst, Алматы или Москва или Удалённо

Solva Group - специализируется на data science, кредитном скоринге и небанковском финансировании. Будучи флагманом финансово-технологических преобразований, компания в своем подходе сочетает применение передовых разработок в системе принятия решений с принципами ответственного кредитования.
Мы ищем в штат Senior Product Analyst. Локация на ваш выбор, в Алматы, в Москве или удалённо.

Обязанности:
- Работа с различными хранилищами данных (SQL, Google Analytics, etc.)
- Глубокий анализ пользовательских метрик в поисках причин проблем или идей для развития бизнеса (MySQL или Clickhouse)
- Совместно с другими членами команды проработка гипотез по улучшению ситуации
- Моделирование экономических эффектов для предлагаемых улучшений
- Подготовка аналитических отчетов и дашбордов (для визуализации используем Tableau)
- Проверка аналитической инфраструктуры: инструментов, методик, процессов и другое

Требования:
- Вы хорошо пишите запросов на SQL (джоины, подзапросы, оконные функции)
- Знаете, как правильно проводить A/В тест
- Работали с инструментами для построения отчетов (Qlikview, Tabltau, Power BI)
- Для вас не составит труда разобраться в новых для вас технологиях
- Вы обладаете здравым смыслом, подкрепленным хорошим пониманием математической статистики
- Вы достаточно самодостаточны, чтобы самому определить направления для исследований, которые с большей вероятностью дадут отдачу

Будет плюсом:
- Работали с данными веб-аналитики
- Имеете навыки программирования на любом языке
- Работали со специальными библиотеками для работы со статистикой
- Понимаете, что такое машинное обучение

Условия:
- Работа в одной из самых быстрорастущих компаний на рынке потребительского кредитования
- Широкие возможности для саморазвития и самореализации
- Стабильная заработная плата и годовые бонусы

Условия:
- Стабильная, высокая, белая зарплата, оклад + премия (годовая)
- Международный коллектив и работа, связанная с бизнесом в разных странах
- Работа в одной из самых быстрорастущих fintech компаний в мире
- Оформление трудовых отношений в соответствии с ТК (Отпуск 28 дней + 8 days off)
- Гибкий график работы
- ДМС (Медстраховка)
- График работы: 5/2 9:00-18:00/10:00-19:00
- Корпоративный фитнес
- Оплата профильных курсов и конференций
- Корпоративное обучение английскому и испанскому языкам
- Корпоративное такси
- Гибридный график
- Отсутствие бюрократии и дресс-кода
- Насыщенную корпоративную жизнь
- Возможность удаленной работы
- Офис в центре Алматы, Москвы или Удалённо
03/04/2025, 14:53
t.me/datarascals/194
Вакансия # 4. Middle Product Analyst, Алматы или Москва или Удалённо

Solva Group - специализируется на data science, кредитном скоринге и небанковском финансировании. Будучи флагманом финансово-технологических преобразований, компания в своем подходе сочетает применение передовых разработок в системе принятия решений с принципами ответственного кредитования.
Мы ищем в штат Senior Product Analyst. Локация на ваш выбор, в Алматы, в Москве или удалённо.

Обязанности:
- Работа с различными хранилищами данных (SQL,Google Analytics, etc.)
- Анализ пользовательских метрик в поисках причин проблем или идей для развития бизнеса (работа с MySQL или Clickhouse)
- Подготовка аналитических отчетов и дашбордов (для визуализации используем Tableau)
- Моделирование экономических эффектов для предлагаемых улучшений
- Проверка аналитической инфраструктуры: инструментов, методик, процессов и другое
- Проведение продуктовых исследований, Подведение итогов А/Б тестов

Требования:
- Вы хорошо пишите запросов на SQL (джоины, подзапросы, оконные функции)
- Знаете, как правильно проводить A/В тесты
- Работали с инструментами для построения отчетов (Qlikview, Tableau, Power BI)
- Для вас не составит труда разобраться в новых для вас технологиях
- Вы обладаете здравым смыслом, подкрепленным хорошим пониманием математической статистики
- Вы достаточно самодостаточны, чтобы самому определить направления для исследований, которые с большей вероятностью дадут отдачу
- Умение работать с продуктовой воронкой - конверсии, чеки, ретеншен, доходность

Будет плюсом:
- Работали с данными веб-аналитики
- Имеете навыки программирования на любом языке
- Работали со специальными библиотеками для работы со статистикой
- Понимаете, что такое машинное обучение

Условия:
- Стабильная, высокая, белая зарплата, оклад + премия (годовая)
- Международный коллектив и работа, связанная с бизнесом в разных странах
- Работа в одной из самых быстрорастущих fintech компаний в мире
- Оформление трудовых отношений в соответствии с ТК (Отпуск 28 дней + 8 days off)
- Гибкий график работы
- ДМС (Медстраховка)
- График работы: 5/2 9:00-18:00/10:00-19:00
- Корпоративный фитнес
- Оплата профильных курсов и конференций
- Корпоративное обучение английскому и испанскому языкам
- Корпоративное такси
- Гибридный график
- Отсутствие бюрократии и дресс-кода
- Насыщенную корпоративную жизнь
- Возможность удаленной работы
- Офис в центре Алматы, Москвы или Удалённо
03/04/2025, 14:53
t.me/datarascals/195
Вакансия #1: Manager / Senior Risk Analyst – Алматы, Москва или удалённо

Компания Solva Group - специализируется на data science, кредитном скоринге и небанковском финансировании. Будучи флагманом финансово-технологических преобразований, компания в своем подходе сочетает применение передовых разработок в системе принятия решений с принципами ответственного кредитования.
Мы ищем Руководителя или Главного риск-аналитика, в штат Solva Group. Локация на ваш выбор, в Алматы, в Москве или удалённо.

Обязанности:
- Владение SQL/Python (умение оптимально писать запросы)
- Знание сводных таблиц Excel
- Опыт работы с BI инструментами
- Должность аналитика в финансовой сфере
- Опыт построения скоринговых моделей будет плюсом

Требования:
- Статистический анализ риск-метрик (уровень одобрения, уровень просрочки, и т.д..) и комплекса мер, принимаемых в случае выхода KPI из заранее оговорённых рамок
- Анализ входящего потока, проверка гипотез, проведение АБ тестов, коммуникация с IT-командой
- Сопровождение регулярной отчетности
- Поиск новых источников данных и их тестирование
- Мониторинг и анализ качества розничного кредитного портфеля и эффективности действующих кредитных политик
- Аналитический склад ума. Умение самостоятельно изучить процесс. Умение объяснять рисковые задачи на языке бизнеса

Результат деятельности (KPI):
- Выполнение KPI по риск-метрикам (просрочка, AR, Par90 и т.д.)
- Своевременное обнаружение и устранение проблем скорингового конвейера
- Частичный KPI на прибыль организации

Условия:
- Стабильная, высокая, белая зарплата, оклад + премия (годовая)
- Международный коллектив и работа, связанная с бизнесом в разных странах
- Работа в одной из самых быстрорастущих fintech компаний в мире
- Оформление трудовых отношений в соответствии с ТК (Отпуск 28 дней + 8 days off)
- Гибкий график работы
- ДМС (Медстраховка)
- График работы: 5/2 9:00-18:00/10:00-19:00
- Корпоративный фитнес
- Оплата профильных курсов и конференций
- Корпоративное обучение английскому и испанскому языкам
- Корпоративное такси
- Гибридный график
- Отсутствие бюрократии и дресс-кода
- Насыщенную корпоративную жизнь
- Возможность удаленной работы
- Офис в центре Алматы, Москвы или Удалённо

Вакансия # 2. Manager / Senior Risk Analyst SME (МСБ) – Алматы, Москва или удалённо

Компания Solva Group - специализируется на data science, кредитном скоринге и небанковском финансировании. Будучи флагманом финансово-технологических преобразований, компания в своем подходе сочетает применение передовых разработок в системе принятия решений с принципами ответственного кредитования.
Мы ищем Руководителя или Главного риск-аналитика SME (МСБ), в штат Solva Group. Локация на ваш выбор, в Алматы, в Москве или удалённо.

Обязанности:
- Обеспечение высшего руководства регулярными ключевыми аналитическими данными о риск-моделях и метриках
- Ответственность за обеспечение анализа кредитных рисков портфеля МСБ, гарантируя соответствие передовым практикам отрасли и соблюдение всех внутренних кредитных процедур/политик, а также всех связанных с этим нормативных требований
- Внедрение лучших практик управления модельными рисками на всех этапах жизненного цикла моделей

Требования:
- Подтвержденный опыт создания широкого спектра статистических моделей, информационных панелей (MI dashboards) и разработки скоринговых карт
- Умение моделировать данные и применять статистические методы для снижения кредитных рисков
- Высокий уровень владения SQL и Python для работы с данными
- Знание Tableau является большим преимуществом
- Отличные организационные навыки
- Командный игрок с развитым критическим и аналитическим мышлением

Условия:
- Стабильная, высокая, белая зарплата, оклад + премия (годовая)
- Международный коллектив и работа, связанная с бизнесом в разных странах
- Работа в одной из самых быстрорастущих fintech компаний в мире
- Оформление трудовых отношений в соответствии с ТК (Отпуск 28 дней + 8 days off)
- Гибкий график работы
- ДМС (Медстраховка)
- График работы: 5/2 9:00-18:00/10:00-19:00
- Корпоративный фитнес
- Оплата профильных курсов и конференций
03/04/2025, 14:53
t.me/datarascals/193
Попробуем новый жанр по просьбе хорошего товарища

Ребята из Solva открывают банк в Казахстане, ищут четверых DS / DA в риски (позница и SME)
Если интересно — пишите Диме @viktorovd напрямую, если хотите чтобы ответили быстро — сошлитесь на канал
Локация на выбор – Алматы, Москва или полностью удалённо.
Вилки примерно 400 000 – 500 000 рублей Net + бонусы
Ниже формальные описания

UPD: длинные описания вакансий перенес в комменты под постом
03/04/2025, 14:53
t.me/datarascals/192
- Работали с инструментами для построения отчетов (Qlikview, Tableau, Power BI)
- Для вас не составит труда разобраться в новых для вас технологиях
- Вы обладаете здравым смыслом, подкрепленным хорошим пониманием математической статистики
- Вы достаточно самодостаточны, чтобы самому определить направления для исследований, которые с большей вероятностью дадут отдачу
- Умение работать с продуктовой воронкой - конверсии, чеки, ретеншен, доходность
 
Будет плюсом:
- Работали с данными веб-аналитики
- Имеете навыки программирования на любом языке
- Работали со специальными библиотеками для работы со статистикой
- Понимаете, что такое машинное обучение
 
Условия:
- Стабильная, высокая, белая зарплата, оклад + премия (годовая)
- Международный коллектив и работа, связанная с бизнесом в разных странах
- Работа в одной из самых быстрорастущих fintech компаний в мире
- Оформление трудовых отношений в соответствии с ТК (Отпуск 28 дней + 8 days off)
- Гибкий график работы
- ДМС (Медстраховка)
- График работы: 5/2 9:00-18:00/10:00-19:00
- Корпоративный фитнес
- Оплата профильных курсов и конференций
- Корпоративное обучение английскому и испанскому языкам
- Корпоративное такси
- Гибридный график
- Отсутствие бюрократии и дресс-кода
- Насыщенную корпоративную жизнь
- Возможность удаленной работы
- Офис в центре Алматы, Москвы или Удалённо
03/04/2025, 14:49
t.me/datarascals/191
Попробуем новый жанр, по просьбе хорошего товарища

Ребята из Solva открывают банк в Казахстане, ищут четверых DS / DA
Если интересно — пишите Вите @viktorovdm напрямую, если хотите чтобы ответили быстро — сошлитесь на канал

Локация на ваш выбор – Алматы, Москва или полностью удалённо.
Вилки примерно 400 000 – 500 000 рублей Net + бонусы
03/04/2025, 14:49
t.me/datarascals/188
- Корпоративный фитнес
- Оплата профильных курсов и конференций
- Корпоративное обучение английскому и испанскому языкам
- Корпоративное такси
- Гибридный график
- Отсутствие бюрократии и дресс-кода
- Насыщенную корпоративную жизнь
- Возможность удаленной работы
- Офис в центре Алматы, Москвы или Удалённо
 
----------
 
Вакансия # 3.   Senior Product Analyst,     Алматы или Москва или Удалённо
 
Solva Group - специализируется на data science, кредитном скоринге и небанковском финансировании. Будучи флагманом финансово-технологических преобразований, компания в своем подходе сочетает применение передовых разработок в системе принятия решений с принципами ответственного кредитования.
Мы ищем в штат Senior Product Analyst. Локация на ваш выбор, в Алматы, в Москве или удалённо.
 
Обязанности:
- Работа с различными хранилищами данных (SQL, Google Analytics, etc.)
- Глубокий анализ пользовательских метрик в поисках причин проблем или идей для развития бизнеса (MySQL или Clickhouse)
- Совместно с другими членами команды проработка гипотез по улучшению ситуации
- Моделирование экономических эффектов для предлагаемых улучшений
- Подготовка аналитических отчетов и дашбордов (для визуализации используем Tableau)
- Проверка аналитической инфраструктуры: инструментов, методик, процессов и другое
 
Требования:
- Вы хорошо пишите запросов на SQL (джоины, подзапросы, оконные функции)
- Знаете, как правильно проводить A/В тест
- Работали с инструментами для построения отчетов (Qlikview, Tabltau, Power BI)
- Для вас не составит труда разобраться в новых для вас технологиях
- Вы обладаете здравым смыслом, подкрепленным хорошим пониманием математической статистики
- Вы достаточно самодостаточны, чтобы самому определить направления для исследований, которые с большей вероятностью дадут отдачу
 
Будет плюсом:
- Работали с данными веб-аналитики
- Имеете навыки программирования на любом языке
- Работали со специальными библиотеками для работы со статистикой
- Понимаете, что такое машинное обучение
 
Условия:
- Работа в одной из самых быстрорастущих компаний на рынке потребительского кредитования
- Широкие возможности для саморазвития и самореализации
- Стабильная заработная плата и годовые бонусы
 
Условия:
- Стабильная, высокая, белая зарплата, оклад + премия (годовая)
- Международный коллектив и работа, связанная с бизнесом в разных странах
- Работа в одной из самых быстрорастущих fintech компаний в мире
- Оформление трудовых отношений в соответствии с ТК (Отпуск 28 дней + 8 days off)
- Гибкий график работы
- ДМС (Медстраховка)
- График работы: 5/2 9:00-18:00/10:00-19:00
- Корпоративный фитнес
- Оплата профильных курсов и конференций
- Корпоративное обучение английскому и испанскому языкам
- Корпоративное такси
- Гибридный график
- Отсутствие бюрократии и дресс-кода
- Насыщенную корпоративную жизнь
- Возможность удаленной работы
- Офис в центре Алматы, Москвы или Удалённо
 
----------
 
Вакансия # 4.   Middle Product Analyst,     Алматы или Москва или Удалённо
 
Solva Group - специализируется на data science, кредитном скоринге и небанковском финансировании. Будучи флагманом финансово-технологических преобразований, компания в своем подходе сочетает применение передовых разработок в системе принятия решений с принципами ответственного кредитования.
Мы ищем в штат Senior Product Analyst. Локация на ваш выбор, в Алматы, в Москве или удалённо.
 
Обязанности:
- Работа с различными хранилищами данных (SQL,Google Analytics, etc.)
- Анализ пользовательских метрик в поисках причин проблем или идей для развития бизнеса (работа с MySQL или Clickhouse)
- Подготовка аналитических отчетов и дашбордов (для визуализации используем Tableau)
- Моделирование экономических эффектов для предлагаемых улучшений
- Проверка аналитической инфраструктуры: инструментов, методик, процессов и другое
- Проведение продуктовых исследований, Подведение итогов А/Б тестов
 
Требования:
- Вы хорошо пишите запросов на SQL (джоины, подзапросы, оконные функции)
- Знаете, как правильно проводить A/В тесты
03/04/2025, 14:49
t.me/datarascals/190
Ниже формальные описания
----------
 
Вакансия #1:   Manager / Senior Risk Analyst – Алматы, Москва или удалённо
 
Компания Solva Group - специализируется на data science, кредитном скоринге и небанковском финансировании. Будучи флагманом финансово-технологических преобразований, компания в своем подходе сочетает применение передовых разработок в системе принятия решений с принципами ответственного кредитования.
Мы ищем Руководителя или Главного риск-аналитика, в штат Solva Group. Локация на ваш выбор, в Алматы, в Москве или удалённо.
 
Обязанности:
- Владение SQL/Python (умение оптимально писать запросы)
- Знание сводных таблиц Excel
- Опыт работы с BI инструментами
- Должность аналитика в финансовой сфере
- Опыт построения скоринговых моделей будет плюсом
 
Требования:
- Статистический анализ риск-метрик (уровень одобрения, уровень просрочки, и т.д..) и комплекса мер, принимаемых в случае выхода KPI из заранее оговорённых рамок
- Анализ входящего потока, проверка гипотез, проведение АБ тестов, коммуникация с IT-командой
- Сопровождение регулярной отчетности
- Поиск новых источников данных и их тестирование
- Мониторинг и анализ качества розничного кредитного портфеля и эффективности действующих кредитных политик
- Аналитический склад ума. Умение самостоятельно изучить процесс. Умение объяснять рисковые задачи на языке бизнеса
 
Результат деятельности (KPI):
- Выполнение KPI по риск-метрикам (просрочка, AR, Par90 и т.д.)
- Своевременное обнаружение и устранение проблем скорингового конвейера
- Частичный KPI на прибыль организации
 
Условия:
- Стабильная, высокая, белая зарплата, оклад + премия (годовая)
- Международный коллектив и работа, связанная с бизнесом в разных странах
- Работа в одной из самых быстрорастущих fintech компаний в мире
- Оформление трудовых отношений в соответствии с ТК (Отпуск 28 дней + 8 days off)
- Гибкий график работы
- ДМС (Медстраховка)
- График работы: 5/2 9:00-18:00/10:00-19:00
- Корпоративный фитнес
- Оплата профильных курсов и конференций
- Корпоративное обучение английскому и испанскому языкам
- Корпоративное такси
- Гибридный график
- Отсутствие бюрократии и дресс-кода
- Насыщенную корпоративную жизнь
- Возможность удаленной работы
- Офис в центре Алматы, Москвы или Удалённо
 
----------
 
Вакансия # 2.  Manager / Senior Risk Analyst SME (МСБ) – Алматы, Москва или удалённо
 
Компания Solva Group - специализируется на data science, кредитном скоринге и небанковском финансировании. Будучи флагманом финансово-технологических преобразований, компания в своем подходе сочетает применение передовых разработок в системе принятия решений с принципами ответственного кредитования.
Мы ищем Руководителя или Главного риск-аналитика SME (МСБ), в штат Solva Group. Локация на ваш выбор, в Алматы, в Москве или удалённо.
 
Обязанности:
- Обеспечение высшего руководства регулярными ключевыми аналитическими данными о риск-моделях и метриках
- Ответственность за обеспечение анализа кредитных рисков портфеля МСБ, гарантируя соответствие передовым практикам отрасли и соблюдение всех внутренних кредитных процедур/политик, а также всех связанных с этим нормативных требований
- Внедрение лучших практик управления модельными рисками на всех этапах жизненного цикла моделей
 
Требования:
- Подтвержденный опыт создания широкого спектра статистических моделей, информационных панелей (MI dashboards) и разработки скоринговых карт
- Умение моделировать данные и применять статистические методы для снижения кредитных рисков
- Высокий уровень владения SQL и Python для работы с данными
- Знание Tableau является большим преимуществом
- Отличные организационные навыки
- Командный игрок с развитым критическим и аналитическим мышлением
 
Условия:
- Стабильная, высокая, белая зарплата, оклад + премия (годовая)
- Международный коллектив и работа, связанная с бизнесом в разных странах
- Работа в одной из самых быстрорастущих fintech компаний в мире
- Оформление трудовых отношений в соответствии с ТК (Отпуск 28 дней + 8 days off)
- Гибкий график работы
- ДМС (Медстраховка)
- График работы: 5/2 9:00-18:00/10:00-19:00
03/04/2025, 14:49
t.me/datarascals/189
Митап прошел, пора возвращаться к историям, ради которых канал и создан.

Этот кейс вспомнил, когда говорил со своим хирургом о страховании осложнений от операций.
Когда дают подписать информированное согласие — пишут возможные осложнения и их частоту встречаемости со ссылкой на источник, так вот если ввести поправку на множественные сравнения
Он сначала чуть смеялся, даже не слышал о таком.
Тема действительно редкая, сходу гуглится программа у испанцев — осложнения обязательно страхуются.
Еще публикации 10-15 летней давности в пластической хирургии — что логично, ведь пластику, как правило, делают за свои, то есть вписаться в бюджет крайне желательно — и вот здесь-то страховка от осложнений не помешает.

Во времена ковида 🤢лично для себя прививаться или нет я принимал по соотношению стоимости страховки и выплаты при наступлении осложнений

Небольшой тест на глазомер.
Ниже частота наступления осложнений из информированного согласия (реального):

5%
0.5%
4,2%
6.7%
3.4%
22%

Давайте сделаем заведомо неверное предположение что все осложнения независимы, сразу два осложнения у одного пациента встречается пренебрежимо редко и зададимся вопросом «какова вероятность что после операции не наступит осложнений»?

Только, чур, на глаз 🧐

Ответ: 63,7% (проверяйте!)

А теперь, собственно, сама история.

Собеседовал DS из страховой (а мб и лизинговой) компании, попросил рассказать про кейс.
А уж его кандидат выбрал что надо: кластеризовать водителей по манере езды — найти лихачей и тех, кто экономит топливо.

Моей радости не было предела — ну наконец-то, разумное применение кластеризации!

Можно же по каждому построить распределение скоростей / ускорений в каком-то небольшом окне, а дальше у нас в руках очень разумная метрика — расстояние между распределениями (тот же PSI сгодится) — и кластеризируй на здоровье.
Не дожидаясь начала ответа, осыпал кандидата комплиментами)

Оказалось весьма преждевременно 😔:
Взяли много разных табличных фичей (включая даже цену автомобиля) и накинули k-means с евклидовым расстоянием 😬
Ну хоть про локоть / силуэтт сказала, не вспомнив что есть что.

Когда так делают, мне просто физически больно.
К сожалению, ЭТО (не буду писать ругательства) часто встречается.

Эффекты масштаба (как фичи друг относительно друга отмасштабируешь, такие кластеры и получишь) и проклятие размерности и начисто игнорируются.

Когда же все-таки делать кластеризация (именно unsupervised задачу)?
Например,
- когда фичи равнозначны и в одном масштабе (гео — широта и долгота подходят пд такие фичи)
- или когда есть разумная функция расстояния между объектами и мы умеем ее вычислять
- или когда данные в виде эмбеддингов, уже обученных на близость (см. Metric Learning)
- или когда есть разумные предположения почему эмбеддинги близких объектов будут близки по расстоянию
03/03/2025, 07:23
t.me/datarascals/187
Мне даже особо добавить нечего) Огромное спасибо Жене и ребятам из Альфы что откликнулись , и особое нашему деврелу Лене Гусаровой -- и ее команде конечно -- за организацию — получилось круто 🙌

Фоточки
03/02/2025, 16:00
t.me/datarascals/185
🔥 МТС BIG DATA X Лаборатория Машинного обучения

🤩 На фото запечатлены два довольных парня из красных компаний, офисы которых находятся через дорогу, которые только что провели совместный митап. Процесс организации был настолько нативным и синергичным, что мы потратили всего полчаса на созвон и чуть больше на переписку в телеге чтобы договориться обо всех деталях. Мы обязательно продолжим проводить совместные митапы, ставьте 🔥чтобы это случилось быстрее.

🙏 Хочу поблагодарить всех причастных к этому событию. Спасибо площадке МТС за теплый прием и позитивные эмоции, всем спикерам за интересные доклады и качественный перфоманс, членам команды Лаборатории за высокий уровень самостоятельности в подготовке к митапу. Ну и конечно спасибо всем, кто пришел на наш митап в онлайне и большое спасибо тем, кто пришел на офлайн часть без вашей поддержки ничего бы не получилось!

📸 Фото вышли огонь, забирайте по ссылке.
📹 Видео и презентации на следующей неделе появятся в комментариях к посту 👇
03/02/2025, 16:00
t.me/datarascals/186
Спасибо всем пришедшим сегодня на митап, были классные доклады, не менее классные вопросы и живые дискуссии после основной сессии! Обязательно повторим! Фоточки выложу как будут готовы)
02/28/2025, 23:07
t.me/datarascals/184
А вот состав докладов ребят
02/28/2025, 16:17
t.me/datarascals/183
Привет всем! Тех, кто не дойдет до нас оффлайн — ждём на трансляции в 17:30!
02/28/2025, 16:17
t.me/datarascals/180
🔍 True Tech DS: митап для Data Scientists

Как находить новые решения, делать модели эффективнее и применять DS-инструменты в реальных задачах? На митапе эксперты поделятся свежими подходами и своим опытом.

🕔 28 февраля, 17:00
🔗 Прямая трансляция здесь

О чем поговорим? Спойлеры от Никиты Зелинского — CDS & Head of ML Platforms МТС в кружочке 🤭
02/28/2025, 16:17
t.me/datarascals/181
02/28/2025, 16:17
t.me/datarascals/182
Интересный опыт -- расшифровали выступление в ВШЭ и опубликовали, набросил немного про DS-центричность , но в обработке пиарщиков вышло почти безобидно 😆
02/25/2025, 10:57
t.me/datarascals/179
Раз уж мы коллективно перенесли XAI-созвон на сегодня на 16 -- пытаюсь найти что-то релевантное и интересное.

Вот, например, в статье недельной давности TOWARDS MECHANISTIC INTERPRETABILITY OF GRAPH TRANSFORMERS VIA ATTENTION GRAPHS пытаются интерпретировать графовые трансформеры путем построения графов внимания.

А как представляются графы? Матрицей связности) Итого получаются картинки, безумно похожие на attention maps, которые к интерпретации GNN в бизнес-смысле не приближают от слова совсем 😔

UPD:
а вот gui для интерпретации , который прям совсем приятный и кликабельный

UPD2:
жду вас по ссылке https://meet.google.com/qjm-yzdu-qxf

спасибо пришедшим! записал идей, копаю дальше)
02/24/2025, 11:57
t.me/datarascals/178
Когда с подачи Виктора https://t.me/kantor_ai начинали в декабре 23го — еле-еле 15 чел набирали , на онлайн приходило 4 , теперь нам аудитории не хватает 😂 будем стараться бронить потоковую 🤷‍♂️
02/20/2025, 19:05
t.me/datarascals/177
«SotA для TS forecasting, все ли так однозначно?»
➖➖➖➖➖➖➖➖➖
2️⃣0️⃣ февраля состоится следующая встреча тренировок по машинному обучению ↩️

В рамках этой встречи мы разберем следующие темы с нашими приглашенным экспертом:
⚪️переход от задачи прогнозирования временных рядов к задаче регрессии
⚪️как выбрать подходящую модель для вашей задачи временных рядов
⚪️какие есть нейронные архитектуры, в том числе Zero-shot

📢 Спикер:
⚪️Дмитрий Симаков, Kaggle competitions master, тимлид Sber AI Lab

📆 Когда: 20 февраля с 19:00
🗺️ Где: Покровский бульвар д. 11, ауд. R308

Подробнее про челленджи 🐭

Студентам других вузов необходимо заполнить форму для заказа пропуска не позднее чем за 24 часа до дня проведения тренировок, по организационным вопросам участия в тренировках вы можете обращаться к Александре ▶️
02/20/2025, 11:30
t.me/datarascals/176
Приходите сегодня послушать Диму, топ спец во временных рядах и не только )
02/20/2025, 11:30
t.me/datarascals/175
Через час опубликую ссылку для подключения на обсуждения XAI (правда более чем уверен, что все забыли 😂), а пока откопал статью 2016 года с супер-известным первым автором Visualizing and understanding recurrent networks

UPD Сорри, сносим на время пораньше и другой день -- давайте выберем в комментариях, ориентировочно понедельник , 16 мск (в комментах под постом решим)
02/18/2025, 19:00
t.me/datarascals/174
Если вдруг кто-то пропустил МТСные курсы по RecSys на ODS и не знает как BigData МТС связана с рекомами, то вдогонку скажу что мы в МТС продолжаем развивать свою библиотеку для рекомендашек RecTools.
За эти году в либу успели законтрибьютить 20+ классных MLE) -- и сейчас ее развитие драйвит Даша Тихонович со своей командой

Новости о либе в канале

Звезды в гитхабе тоже приветствуются 😊

Итак, встречайте -- новый релиз 0.11.0 -- Трансформеры в RecTools!

BERT4Rec и SASRec в fit / recommend парадигме, без необходимости в специальной подготовке данных.

Поддерживают сборку с конфигов, кастомизацию, коллбэки, чекпойнты, логи, кастомную валидацию и мульти-гпу обучение.

Архитектура:
- Dot product связывание (+ можно кастомизировать свою логику)
- Из коробки используют в эмбеддингах категориальные фичи айтемов (+ можно подключать и отключать эмбеддинги на айди айтемов) (+ можно кастомизировать свою логику для эмбеддингов)
- Поддерживают softmax, BCE и gBCE лоссы с варьируемым количеством негативов (+ можно поддерживать кастомные лоссы)
- MLM и Shifted Sequence задачи обучения (+ как и всё остальное можно кастомизировать)

Все актуальные туториалы тут:
- Теория и практика
- Обучение с кастомной валидацией
- Модульная кастомизация моделей

Результаты на публичных бенчмарках против других имплементаций: наш BERT4Rec выиграл 2 из 4 датасетов, SASRec на софтмаксе 3 из 4.

Также в релизе:
- from_params метод для моделей и общая функция model_from_params для инициализации моделей с "плоского" словаря
- обучение на GPU для PureSVD
- TorchRanker для ранжирования айтемов по полученным скорам от моделей
02/17/2025, 20:37
t.me/datarascals/173
DS и нумерология

Если кто до сих пор не нашел что почитать в выходные и при этом увлекается нумерологией -- то небезызвестный Юрген Шмидхубер еще 8 октября выпустил 88-
страничный обзор, в котором ровно 888 ссылок.

Название вполне в его духе — Deep Learning in Neural Networks: An Overview (мужик считает себя минимум отцов всего современного AI -- и у него правда есть как минимум одна важная работа в области), многие уже посмеялись с его поста про DeepSeek, но если кто-то считает нашу среду токсиком, посмотрите как он огребает в комментах к одному из его предыдущих постов в линке.

Жалко мужика, а обзор любопытный как минимум для понимания истории вопроса.
02/15/2025, 09:12
t.me/datarascals/172
Foundation Models уже и сюда добрались 😱

В прошлом июне на RuCode рассказывал про FM для временных рядов.

Что следующее? Видео?
02/13/2025, 13:05
t.me/datarascals/170
📔 Мы внимательно следим за последними статьями в области ML, и сегодня хотим обратить ваше внимание на модель TabPFN v2 из статьи “Accurate predictions on small data with a tabular foundation model”, опубликованную в январе 2025 года в Nature. Модель работает на табличных данных, первая версия TabPFN была опубликована в октябре 2022, во второй версии помимо классификации появилась регрессия.

💡 Идея TabPFN v2:
В классических алгоритмах для решения suprevised задач на табличных данных модель обучается с нуля, в статье используется подход с предобучением:
1. Генерируются 130 миллионов синтетических датасетов с помощью каузальных графов, которые имитируют сложные зависимости в данных, пропуски, выбросы.
2. На сгенерированных данных предобучается трансформер, предсказывая таргет test выборки, получая на вход train как контекст. Для каждой ячейки таблицы используется отдельная репрезентация. Используется механизм внимания как по строкам, так и по столбцам таблицы.
3. Вместо привычных отдельных "fit" и "predict", трансформер за один проход получая и train, и test новой задачи одновременно, делает инференс на test, используя in-context learning. Простыми словами, модель обучена однажды, но подхватывает зависимости в данных из подаваемого в контекст датасета и сразу делает предсказания.

🥇 Результаты авторов:
1. Скорость и качество: в задачах классификации и регрессии на данных до 10к строк и 500 признаков за несколько секунд получает качество лучше, чем ансамбль из базовых алгоритмов (бустинги, лес, линейные), которые тюнились в течение нескольких часов.
2. Минимум работы: алгоритм не нужно тюнить, имеет отбор признаков, нативно работает с числовыми и категориальными признаками, а также с пропусками.
3. Плюсы foundation моделей: возможность получить распределение таргета, генерировать данные итд.
4. Неплохо показывает себя на временных рядах.

🤔 Выводы:
1. Статья показала эффективность foundation моделей в домене табличных данных, теперь у бустингов сильные конкуренты.
2. Пока есть вопросы с точки зрения эффективности инференса, ограниченности контекста, но дальше будут улучшения.
3. Интересно, что TabPFN v2 можно назвать AutoML решением, ведь для решения задачи он не требует ни настройки гиперпараметров, ни предобработки данных.

Тема интересная, у нас имеются наработки по этой теме, и мы работаем над их применением в LightAutoML🦙, stay tuned!

#обзор
02/13/2025, 13:05
t.me/datarascals/171
Всем привет! 28 февраля в 17:00 приходите на митап по Data Science в Москве. На встрече экспертами из Центра Big Data МТС и Лаборатории машинного обучения Альфа-Банка поделимся кейсами:

🎙️Гибкая калибровка: как одновременно попадать в KPI для сотен рекламных кампаний?
🎙️Превращаем нейросети в SOTA и для табличных задач
🎙️Трансформеры в RecTools: от fit/predict из коробки до кастомных архитектур
🎙️Улучшаем клиентский опыт за счет комплекса моделей
🎙️Бандиты и нейросети. Строим рекомендации с нуля в стриминговом сервисе с UGC-контентом
🎙️Ускоряем работу аналитиков инструментами Data Science
🎙️Новый релиз CoolGraph – краткий обзор нашей библиотеки для быстрого старта с GNN

🎬Модераторы: Никита Зелинский (CDS & Head of ML Platforms МТС и Евгений Смирнов (CDS & Head of ML Lab, Alfa-Bank).

😍 В рамках колоборации двух CDS-ов из красных компаний запускаем розыгрыш аж 1️⃣0️⃣ подписок ✈️-премиум на год!

Как принять участие?
1️⃣ Подписаться на канал "Нескучный Data Science" (@not_boring_ds)
2️⃣ Подписаться на канал "Дата канальи – про "специалистов" данных в ML/AI" (@datarascals)
3️⃣ Ждать 28 февраля, когда мы объявим, кто победил.

🗓️ 28 февраля в 17:00
📍 г. Москва, офлайн
➡️ Регистрация по ссылке: https://mts-digital.ru/events/details?id=12357783
02/12/2025, 21:20
t.me/datarascals/164
Мы все-таки решились!
02/12/2025, 21:20
t.me/datarascals/163
Про манагеров-каналий и матрицу – но не ту что в алгебре, а как структуру управления.

В комментах к посту про скрытые KPI

А кто шеф в матричной структуре?

Спойлер: я сторонник системы сдержек и противовесов (чтобы хирург не перепутал ноги при ампутации – а такие случаи вполне гуглятся)

Сейчас покажу на неожиданном примере.

Если попросить вас представить структуру где максимально жесткая система приказов, за неповиновение – расстрел в военное время, все представят армию.

На этом моменте манагеры-канальи мечтательно закатят глаза в мечтах о безграничной власти и единоначалии (ох как любят они это слово и ощущение).

Первая же ссылка на wiki
дает нам представление о том что управление вооруженными силами внезапно тоже матрица – как минимум (но не только), есть географический разрез (военные округа) и рода и виды войск (те самые компетенции).

При этом все защитники должны работать вместе и их объединяют, неожиданно, в объединения (например, в армию, и у нее есть свой командующий)

То есть в составе армии может быть дивизия, в которой есть карандашеметательный полк, и командир этого полка подчиняется комдиву, но его боеготовность оценивает начальник карандашеметательных войск армии. Ничего не напоминает?

Даже такая организация, которая для многих выступает примером супериерархичной структуры -- управляется матрицей.

Как говорит мой шеф – “принцип двух ключей” – и такой подход проверен и в мирной жизни и в войнах.

Понятно, что из любого правила найдутся исключения – но на то они и исключения.

Так вот, стремление манагера в крупной компании к единоначалию – нормально, главное чтобы оно оставалось недостижимо 😄
02/12/2025, 09:19
t.me/datarascals/162
DS-инженер в команду Авито
от 285 000 ₽/месяц
Удаленка или офис, Фултайм

Ищем опытных DS-инженеров на Weekend Offer в Авито! Ускоренный отбор за выходные и возможность попасть в одну из пяти команд: автомодерация, монетизация, поисковое ранжирование, AI Lab и вертикальные команды DS…(читать далее)
02/11/2025, 11:43
t.me/datarascals/161
Видел кучу презентаций и докладов где DS противопоставлялся MLE, где буква E про инженера. Прямо такие разные профессии, смотрите не перепутайте 😄

Кажется, Авито решили эту проблему — не удивлюсь если их DSE еще и на кларнете играет 🤣
02/11/2025, 11:43
t.me/datarascals/160
Итак, про XAI, он же eXplainable AI

Глубина глубин открываются с первого же найденного постера — 17 методов и 20 (!) метрик для сравнения в постере с последнего NIPS (декабрь 24го)


Summary of Navigating the Maze of Explainable AI: A Systematic Approach to Evaluating Methods and Metrics
LATEC is a new tool that helps researchers understand different methods of Explainable AI (XAI) by comparing 17 popular XAI methods across various settings and using 20 evaluation metrics. The study shows that previous evaluations of XAI methods were often inconsistent and biased because they used limited criteria. By analyzing a large number of combinations and making all results available, LATEC aims to help users pick the right XAI method for their needs, especially in areas involving images and 3D data.


Explaining explanations (рис 3 в самом свежем обзоре — январь 25го) тоже намекают что не все так просто 🤔

В итоге разобраться за выходные не получилось, «не шмогла» — недооценил куда наука ушла, сорян 🤷

Ухожу читать обзоры и смотреть туториалы 🤓🙈


Вроде такого: A Review of Multimodal Explainable Artificial Intelligence: Past, Present and Future от 18 декабря

Отдельно радует что есть попытки в метрики и бенчмаркисамого XAI (!)

Наметил себе еще «немного материалов»
https://neurips.cc/virtual/2024/tutorial/99520
https://www.youtube.com/watch?v=ObaXpJVqgt4
https://neurips.cc/virtual/2023/workshop/66529

PS
Пока искал встречал и очередное развитие SHAP
И реинкарнации градиентных методов
И attention maps / saliency maps (которую кстати и получают градиентными методами)
И модели, которые сразу учат и объяснения делать (еще и на фондовом рынке!)

Если кому-то тема тоже интересна — мб соберемся через недельку онлайн и обменяемся мнениями?

Например, вторник, 18 февраля, в 20 по мск?

По итогам саммари обсуждения выложу сюда

Если готовы собраться онлайн — ставьте 😄, 18го пришлю ссылку.

Если я все усложнил и PDP / ICE / H-stat / ALE / SG достаточно и вообще надо было начать с гайда 2024 года, в котором все уже достаточно структурировано и объяснена связь задач XAI и adversation attacks -- вы крутые, ставьте 😎
02/10/2025, 19:01
t.me/datarascals/159
Как связан Data Science и Дом-2?

В соседнем чате Влад (который https://t.me/sberloga) скинул наш с Витей вводный вебинар (кусочек первого семинара курса "ML в бизнесе" с описанием какой наш курс хороший и примерами схем валидации моделей), и я чего-то не мог понять кто это в описании и когда же мы его упоминали.

Поиск по картинке в Яндексе вывел на материал "Дава показал как живет после расставания с Бузовой" 🤦‍♂️.

Поиск по Бузовой -- на Дом-2.

И, видимо, на выходных я буду заниматься подходами explainable ai, ибо понять как это все связано пока что выше моих сил 🤔. Спасибо ютюбу за мотивацию, а то все руки не доходили 😆

Если хотите, поделюсь материалами которые найду (а модификации SHAP и LIME мне уже немного не интересны, каузальные эмбеддинги вообще немного про другое) -- ставьте лойс 👍.
02/07/2025, 23:43
t.me/datarascals/158
А эта штука и правда работает -- грузишь фотку, пишешь что хочешь задетектить -- на фотке появляется бокс с твоим объектом https://va.landing.ai/demo/agentic-od. Каждый раз когда вижу такое думаю -- "ну это же так просто, почему я не додумался?!". Конечно, ни разу это не просто, но идея-то классная

там еще и API есть


import requests

url = "https://api.landing.ai/v1/tools/agentic-object-detection"
files = {
"image": open("{{path_to_image}}", "rb")
}
data = {
"prompts": [ "{{prompt1}}", "{{prompt2}}" ],
"model": "agentic"
}
headers = {
"Authorization": "Basic {{your_api_key}}",
"Content-Type": "multipart/form-data"
}
response = requests.post(url, files=files, data=data, headers=headers)

print(response.json())
02/07/2025, 06:56
t.me/datarascals/157
Рубрика “полезное от подписчиков”

Под одним из предыдущих постов про DS в корпоративном мире представитель венгерского DS-комьюнити Самвел @samvelkoch, активный кагглер 💪, создатель secretalchemistsociety, поделился интересными материалами, которыми не могу не поделиться с вами.

Итак, в презентации взгляд психолога (по совместительству Head of DS Редбулла -- интересный карьерный трек 😂) на наши корпоративные игры и составляющие успеха в корпорации.

А по ссылке крутой карьерный спич от представителя террористических и нежелательных организаций 😄
02/06/2025, 13:22
t.me/datarascals/156
Скрытые KPI – моя версия

Спасибо вам за комментарии под предыдущим постом, реально заставили задуматься и вспомнить разных ситуаций

Дисклемер: речь о корпорациях

А картинка из статьи на хабре, статью комментировать не буду, но картинка классная.

Сначала кейсы

Кейс 1
Как вы думаете, что будет если удачно показать презентацию акционеру?
Внеплановая премия на 50М рублей – как вам?

Кейс 2
Очень крепкий начальник DS-отдела тащит звездный (уникальный, имиджевый, денежный, на благо клиентам и тд) проект, визибилити на самом высоком уровне, получает грейд, звание, еще пару команд. А меньше чем через год вынужден уволиться. Почему?

Кейс 3
Регулярная оперативка у президента Банка, президент не в настроении. AI идет четвертым, последним вопросом. Шеф докладывает результаты моей команды – гробовое молчание секунд 15, вступается один старший вице-президент – “мои ребята провалидировали, все сделано грамотно”, затем второй – “а мои уже пропилотировали, работает, эффекты есть”, мы с шефом выдыхаем, президент выдает – “а для физиков когда это же сделаете?”.

Давайте попробуем суммаризировать этот опыт:

1) Больше всех в колхозе пахала лошадь, но председателем она так и не стала => визибилити очень важен

2) Если вы сделали один классный и значимый проект – вы задали планку, и у вас даже после повышения может не хватить задач / полномочий / ресурсов / гороскопа сделать что-то такого же масштаба

3) А “на радарах” надо быть регулярно, желательно либо с важной либо с хайповой темой – а фокус постоянно меняется, поэтому темы тоже надо менять – люто плюсую комментарий под предыдущим постом на тему новизны и early adopter

4) Достижения должны не убывать по значимости => правильное планирование и револьверные схемы

5) Любой манагер обучен представлять результаты своих сотрудников как свои. Как же тогда получить визибилити? Искать недооцененные темы, где шеф видит вероятность провала (и последствия там таковы что кадровые решения неминуемы – тогда он всегда сможет пожертвовать тем кто докладывал и сослаться на ошибку сотрудника, который за это был им уволен).

6) Надо уметь балансировать между стремлением “сделать нормально” и закрыть тех. долги и ростом вширь в хайповые темы. Инвестируйте в рост тоже, копать картоху можно долго

7) Решать все проблемы шефа плохая стратегия если вам не платят 100500 денег – кто же вас отпустит на повышение если вы так удобны? Если у вас хорошие отношения с начальником – значит, вам недоплачивают. Вообще залог хороших отношений с людьми – с вас они имеют больше, чем вы с них. И быть на расстоянии повышает шанс воспользоваться возможностью из п4. Здесь, как и из любого правила, есть исключение -- если вас купили с потрохами, еще и с опережением ваших запросов -- то логично честно впрячься -- такая ситуация хоть и может оказаться неустойчивой, но сулит нереально редкий баланс нервы / деньги

8) А вот решать проблемы шефа своего шефа – работающая история. Ведь стейкхолдер так похож на shareholder ;)

9) У акционера проблемой могут быть не деньги, а померяться чем-н с акционерами другой крупной компании

10) Поддержка смежников (за периметром феода вашего синьора) критически важна – более того, не раз наблюдал “десанты” из соседних подразделений – испытанная временем практика – "женишься" сам или "женишь сына" на "дочке" соседнего феодала и он перестает тебя атаковать (особенно полезно когда тебя атакуют другие, с которыми ты породниться или заключить союз не успел). Речь о приеме на работу к себе в структуру на ненизовую должность -- еще таких называют парашютистами

11) Не встревать в конфликтные темы (когда две вертикали бьются за какую-то бизнес-линию или даже зону ответственности) – они потом решение найдут, а ваша голова полетит. Паны дерутся – у холопов чубы трещат.

Итого: у всех, кто хочет расти, есть незафиксированный kpi “не реже раза в месяц/квартал -- в зависимости от левела -- доложить на уровне шеф+1 результаты, имеющие новизну, выхлоп и при этом относящимся либо к сиюминутно важным фокусам того уровня либо к жизненно-важной теме для кор-бизнеса”
02/05/2025, 08:59
t.me/datarascals/155
Скрытые KPI

Выше мы с вами рассуждали о KPI, которые вообще бывают у DS-ветки.

Но самые важные, от которых напрямую зависят ваши повышения и в карьере и в грейде, вы не найдете в формах оценки и ревью, о них вам на собеседованиях не скажут HR.

Если есть предположения о чем пойдет речь – пишите в комментариях под постом 😄.

Свою версию изложу как обычно с кейсами и утром )
02/04/2025, 16:12
t.me/datarascals/154
Скрытые KPI

Выше мы с вами рассуждали о KPI, которые вообще бывают у DS-ветки.

Но самые важные, от которых напрямую зависят ваши повышения и в карьере и в компенсации, вы никогда не найдете в формах оценки и ревью, о них вам на собеседованиях не скажут HR.

Если есть предположения о чем пойдет речь – пишите в комментариях под постом.

Свою версию изложу, как обычно, с кейсами и утром )
02/04/2025, 16:11
t.me/datarascals/152
Интересно, почему бы этому тимлиду из вакансии ниже не устроиться ровно за те же деньги с чатботами болтать

25$ если на полную ставку это 4400 $ в мес в валюте, полная удаленка, без дурацких созвонов и "гениальных" kpi
02/02/2025, 21:21
t.me/datarascals/150
Team Lead Data Scientist
400 000 – 550 000 ₽/месяц
Удаленка или офис, Фултайм

Вакансия идеально подойдет как опытным Team Lead, желающим решать интересные задачи в области оптимизации ценообразования, так и специалистам с прикладным опытом и подтвержденными успехами в решении задач оптимизации ценообразования…(читать далее)
02/02/2025, 21:21
t.me/datarascals/151
Обещал вам показать самописного бота, с помощью которого готовлюсь к behavioral interview (любят в faang/maang и последователях) и заодно практикую английский.

Еще хотелось понять насколько я оменеджерился, смогу ли сделать что-то минимально рабочее за пару вечеров.

Буду признателен за любой фидбек и мб даже кому-то бот тоже окажется полезен

Итак, прошу любить и жаловать:
@HR_behavioral_questions_bot
02/01/2025, 23:15
t.me/datarascals/149
Слышал что в человеке заложено чувство прекрасного, только прекрасное у всех разное

“Да, я читала Пикассо, меня так поразил он, Феллини тоже молодцом, прекрасный композитор”.

Мне вот эстетически нравятся файндинги в данных. Красиво и все тут

И вот с подачи Саши Киреева второй день любуюсь на бессмертное (полтысячи апвоутов за 6 лет) расследование про таргет из бразильского соревнования Elo .

Как в задаче с непрерывным (хотя и здесь есть caveat) таргетом догадаться что он из себя представляет? Читается реально как захватывающий детектив, рекомендую.

Ситуация с тем что таргет или фича, которые кажутся непрерывными, оказывается категорийными или отношениями – очень частая.

Вообще, в задачах спроса (и многих других) проще предсказывать не непрерывные значения (особенно бустингами), а месяц к месяцу или неделя к неделе )

Ну и на закуску – во многих соревнованиях (как и в этом, кстати) организаторы пишут что данные синтетические (так кибербеза требует), а по факту – ну вы поняли ) А еще и до конца обезличить часто забывают 😉

PS: для любителей – попробуйте найти фичу, которая кажется непрерывной, но на самом деле категорийная, здесь -- на ней (или них?) запнулась даже топ-1 automl-команда мира
01/31/2025, 08:40
t.me/datarascals/148
Кейс когда топ-манагер оказался далеко не канальей 😎 (правда это был старший вице-президент) , а направил как собрать данных для модели.

Раз в две недели я докладывал топу об успехах советского балета, увеличении надоев и космической программе благодаря внедрению ML, но חלב рано или поздно заканчивается – откуда брать новые фичи для моделей NBO/NBA? Как узнать конкретно почему наше предложение нерелевантное? Это позволит и выборку переразметить и причины попробовать устранить.

Иногда, конечно, приходили на почту поддержки крики души от клиентских менеджеров – в духе “вы там говном упоролись? Зачем мне мне лид про застраховать продукцию клиента? Это рыболовный флот – мне селедку в Атлантическом океане им застраховать?!”.

Короче, сбор обратной связи был реализован специфически – обязательное поле "комментарий", но обычно там стояли прочерки, хотя от людей, не обделенных фантазией, попадались и "пиво, чипсы, водка" -- видимо, что-то им верно подсказывало что читать их комментарии никто не будет. Угадайте наиболее частую категорию – очевидно “прочее”, , и наличие такой категории на первом уровне совсем печально. А процесс выглядел так -- раз в неделю специально обученной даме присылали выгрузку в excel, она выбрала "случайно" -- на самом деле просто первые 10 строк, долго думала и делала слайд с этими 10 комментариями и своих фантазиях о причинах такого фидбека.

А посколько KPI на деньги от моделей был только у меня, то рост конверсии от лидов тоже беспокоил в первую очередь меня (бизнес и так свои бонусы получит -- сетка план как-нибудь да выполнит).

И вот встал вопрос об обратной связи, а непонятно как правильно делать опрос. Позапускали BERTTopic на комментариях к лидам (а их было не так много), поморочили голову бизнесу. Ок, ценовые условия продукта, неценовые условия продукта, решение принимается в другом месте, продукт вообще не применим к клиенту (проектное финансирование тому кто ничего не строит или долгие депозиты компании с большими финансовыми проблемами и тд) и немного других. Переделали формы – не летит.

На очередном докладе шеф лишь вздохнул и отправил читать классику – "Жалоба как подарок” .

Внезапно это оказалось самой полезной книжкой по DS (хотя она вообще вроде бы про другое) за тот квартал. В итоге категорий стало в районе 25, они расположились по уровням, отмечались они галочками, в прочее падало менее 0.2%, поле "комментарий" перестало быть обязательным, на категории сделали модель-классификатор, а у продуктовиков появился инструмент замера фидбеков при запуске нового продукта – прямо в BI вывели как меняются доли отказов по продуктовым условиям, когда конкуренты начинают демпинговать и все в таком духе.

Угадайте, какой самый частый инсайт был для любителей поставить продукт на полку?
Тех. поддержку надо с продуктом поставлять! И вот эта штука существенно растила конверсии. Сложно было без моделей и итераций с обратной связью догадаться, ведь так? :facepalm:

А книжку не устаю рекламировать -- не только в DS поможет 🤓
01/29/2025, 20:20
t.me/datarascals/147
Даже статистика не всемогуща )

Пояснительная бригада : там где отверстия от снарядов — укреплять защиту не надо , так как самолеты с такими повреждениями все же дотягивали до базы, а вот если снаряд попадал в оставшиеся места — не долетали, этот пример любят в учебниках по статистике 🙌
01/28/2025, 15:24
t.me/datarascals/145
Раз уж зашло про психологию и навыки разбираться в людях, давно задавался вопросом секрета успеха «распутиных» от AI.

Неужели опытные акулы бизнеса и топы не видят что перед ними балаболы? Зачем презентаторов нанимают (а часто еще и уговаривают) руководителями дата-функций? Почему не предлагать им только развлекательные роли?

И вот на днях передали запрос на внешнего эксперта где значилось “из бизнеса (не консультант, не футуролог)”. Неужто наваждение прошло? 🤔

Иногда они себя называют AI-евангелистами, иногда футурологами, кибер- или AI-.

И как от мистического старца Распутина жена тогдашнего правителя ждала чуда в исцелении сына от гемофилии, так и от этих ребят топ-менеджеры ждут каких-то невероятных дизраптов в бизнесе. Чтобы продажи выросли минимум раз в 10, а бонус конкретного топа – раз в сто. 😆

Во время и после найма ребята делают чудесные презентации, владелец и весь топ-менеджмент компании в них влюблены, ловят каждое слово, поддерживают каждый проджект. Что что, а зажигательно, самоуверенно и самовлюбленно презентовать распутины умеют 😂 Но спустя год-полтора настает разочарование и распутиным приходится искать новую компанию (либо аккуратно перестать отсвечивать в этой компании, сохранив за собой пост, и заняться своими делами на стороне). Получается, такой вот подвид чайка-менеджеров.

Встретить их проще всего на бизнес-тренингах, в Сколково и похожих, на конференциях без модерации, круглых столах, панельных дискуссиях.

Как ни странно, работа с такими манагерами может оказаться и весьма денежной (пока у них есть кредит доверия от топов) и внезапно достаточно интересной – ведь в списке того что они успели нафантазировать и наобещать могут оказаться реально полезные нестандартные для конкретной отрасли задачи, которые вполне решаются трансфером и адаптацией технологий из соседнего домена.

Так что для DS сотрудничество с таким визионером-распутиным может оказаться не таким уж и кринжовым, а выгодным и интересным.

PS: песенка 79 года для настроения
01/28/2025, 09:05
t.me/datarascals/144
В тему каналий-манагеров и их компетенций.

Если с организационными способностями и операционным управлением все на поверхности – достаточно одного показательного поста, то как насчет других компетенций?

Возьмем крайний случай – “умение разбираться в людях”.
Всегда недоумевал – как за получасовую / часовую встречу сделать хоть сколько-нибудь точный прогноз вроде того будет ли человек вообще работать, надежный ли он, интересно ли ему то, чем он занимается, будет ли он развиваться в этой области и много-много других выводов.

К счастью, я больше не встречаю у HR в заметках после собеседований “лапуля нормис”, но вот длинные трактаты далекоидущими выводами с часовой встречи, на которым был еще и продакт, а hr задала всего пару вопросов – регулярно. И это прям устоявшаяся мировая практика, целые курсы продают как на такие вопросы отвечать. Осенью я даже потратил пару вечеров чтобы запилит англоязычного бота-тренера который сэмплит тебе вопрос (по которому можно подсказку посмотреть), ты голосовым надиктовываешь ответ, а он дает фидбек – что хорошо, что улучшить – а где красные флаги. Если интересно – ставьте палец вверх, скину в одном из следующих постов.


И вот на днях друг и говорит – “А чему ты удивляешься? Ты вот ml ботал и инженерию всякую, а другие ботали как за 5 секунд понять кто перед тобой и получали в этом опыт”. В тот момент я крепко задумался. Честно говоря, к книгам вроде творчества Алана Пиза я относился примерно как к гомеопатии и заряжанию банок, но мб я просто слишком буквально все воспринимаю?

Помню был сериал “Lie to me” c Тимом Ротом – но будем честны, разве средняя hr по зуму повторяет все приемы-фокусы оттуда?

Поделитесь, пожалуйста, что вы и ваши знакомые используют чтобы понять стоит с человеком работать / связываться / иметь дело или нет?

Это можно заботать? Есть какие-то прям учебники на базе исследований? Какие-то тесты?
01/27/2025, 10:32
t.me/datarascals/143
Интересная в Яндексе в ecom культура — требовать от сотрудников личную телегу показывать, хорошо пока на конюшне барин не порет.

Как он так умудрился выстроить коммуникации с командой, что у каждого десятки непонятных p2p запросов в день вообще неясно. Могу погадать что там нет либо закрепленных зон ответственности, либо документации, либо всего вместе.

В любом случае лезть в личные телефоны сотрудников -- это неадекват
01/26/2025, 13:07
t.me/datarascals/140
Крик души - почему столько людей позволяют на работе не отвечать другим в тот же день и просто оставлять непрочитанные?

Сталкиваюсь с этим даже в своей команде, когда просишь показать людей телеграмм и там видно, как десятки входящих даже в личку, а не чатах..просто...игнорируются.. А ведь хороший менеджер все равно потом проэскалирует наверх, партнер найдет личный контакт генерального директора, а контрагент еще и позвонит.. И все это потому что кому-то просто было лень за 15 секунд прочитать входящеее и форвраднуть быстро куда следует.

Тут уже делал гайд, как исправиться :) Недавно на встрече прямых по очереди попросил открыть свои телеги и показать unread - в шоке увидел, что половина людей не соблюдает 0inbox >_<

@media_rare
01/26/2025, 13:07
t.me/datarascals/141
Очередной пост не вмещался в тг, опубликовал его на хабре и нахватал минусов в карму 😄 upd: а нет, все хорошо
01/26/2025, 00:34
t.me/datarascals/139
Кейс про два стула для кластер-лида

Вызывает как-то шеф к себе — говорит:
«
— Надо сделать модель рекомендации кредитной ставки, выбери кто делать будут — К или Ш (два крупных подразделения)
— А чего мы сами не сделаем, фин эффект себе не запишем?
— А я уже им пообещал
— А кому ты пообещал?
— И тем и тем, ты уж как-нибудь разберись и выбери одних 🤡👏»


Мало того что если выбрать кого-то из этих двух структур, другая к тебе повернется отнюдь не лицом и на существенный срок – все из-за дележки фин эффектов. Причем подкузьмить могут недурно обе башни – через Ш вводятся ставки, а через финансистов (братьев К) защищаются эффекты.

Естественно они ни в какую не хотели данными делиться ни с кем — у одних были данные по нормативной валовой марже по отраслям, по кредитным договорам — а у других реальные финансовые потоки, модель досрочного гашения кредита и всякое полезное иное.

Попытка предложить им сделать две модели и объединить результаты тоже была принята в штыки, посыпались звонки шефу от уважаемых вице-президентов.

Ну тогда по заветам известной байки про Шваба с куском мела договариваемся что в пром ставим ту модель где ошибка на тесте меньше. И в срок 2 мес нужны предикты на тестовый период, мол, метрики мы сами насчитаем – для объективности. Каждая команда уходит строить модель на своих данных.

Проходит 4 месяца и команды возвращаются. До конца года осталось не то чтобы сильно много. Снова предлагаю объединить скоры – шум, гам, обозвали волюнтаристом 🤥. Ну ок, у нас есть дисперсия каждой модели на тесте, давайте попробуем хоть на пальцах прикинуть сколько будет A/B идти. Заодно-таки построим самую примитивную общую модель – с весами сложить предикты команд. В чем суть A/B (на самом деле A/B/C): мы рекомендуем ставку кредита клиентщику для переговоров (давая текстовое описание почему она именно такая), если в группе удается маржу хотя бы на 0.1% в среднем поднять то это сотни миллионов дохода, но сравниваемся мы не только с теми, кому рекомендацию модели не показываем, но и с теми, кому показываем рандомные +0.1% – 0.5% накинуть к нормативной марже.

Считаем с поправками, подбираем сиды везде где только можно, и выходим на нужные числа (сработали не хуже Росстата): если модели не объединять (используя нашу в тч) то до конца года не успеем провести тест и защитить эффект.

Пришлось модели все-таки объединить и эффект на три подразделения делить поровну (ага, и мы кусочек получили) 😝. То же не без битвы -- "а давайте по человеко-часам считать", "а давайте пропорционально аплифту к метрике на тесте" и т.д. Но когда в доме пожар, обсуждение чья очередь мыть посуду не то что бы сильно затягивается 🤓

Поэтому как менеджер не верю я в "великих переговорщиков" и достижимость win-win по-джентельменски, на берегу -- если вопрос действительно чувствительный и интерес вполне себе корыстный, то в корпорации скорее закон джунглей действует, а окно для того чтобы договориться по-человечески появится когда уже совсем деваться некуда будет. Важен только момент времени и критичность ситуации.
01/24/2025, 08:45
t.me/datarascals/138
В комментариях к этому посту попросили поделиться ссылками на антифрод, их есть у меня

Прям в цельную картинку вместе они собраны в курсе ML в бизнесе, но здесь поделюсь кусочками, из которых она состоит.

А для совсем начинающих – хендбук

Как вообще устроен антифрод (на примере фин. мониторинга):

1. Правила (известные схемы, например из профильных обнальных тг-чатов -- для обнала: распыление, слом назначения платежа, вексели, слом ндс, транзит и пр) и экспертные модели (регрессии на известных фичах -- доли контрагентов, коэффициента налоговой нагрузки, корп карты, учредитель - подставное лицо и пр.). Известные фичи "ломаются" уже со стороны нарушителя -- например, КНН можно увеличить отправляя ошибочные платежки в налоговую и получая возвраты

2. Модели (supervised модели, построенные по отловленным правилами и руками кейсам). Здесь тоже работает PseudoLabelling. Но и фродеры не стоят на месте, на это намекал в самом первом посте

3. Кейс-менеджмент и эксперты (разбор найденных примеров, новых схем, мотивированное суждение). Разбор кейса может занимать, например, 2 недели, включая запрос документов от клиента

4. Exploration -- unsupervised -- outlier detection -- наша задача найти несколько десятков примеров, передать их на разбор, сделать supervised модель

5. Мониторинг качества работы и схем и отдельных фичей, симуляции новых схем атак
Мониторинг мошеннических заявок на кредит, определение компаний, искажающих финансовую отчетность -- все это тоже про антифрод.
На Forex вообще фродовыми считаются клиенты, которые выживают и выводят деньги.

Таргетом может быть как компания / физик так и конкретная сомнительная транзакция.

Итак, сами материалы

Поиск аномалий в табличках (для того чтобы быстро разные алгоритмы перебрать):
1. PYOD – база, даже вариационный автоэнкодер включили (вообще автоэкнодеры в разных формах полезны в этих задачах)
2. PYTOD – ускоренная версия (за счет использования GPU) – вообще большинство классических алгоритмов редко применяют из-за того что они очень медленные, мне нравится Isolation Forest из всех, но перебирать всегда приходится несколько
Здесь важно сделать отступление – что для многих классических алгоритмов придется как-то умозрительно задать ожидаемую долю аномалий, что не очень удобно. По факту нам интереснее ранжирование на более аномальные и менее – а дальше сколько мы возьмем будет зависеть от цены ошибки в каждом кейсе и мощности офицеров чтобы эти кейсы руками разобрать и подтвердить.

Поиск аномалий на транзакциях:
1. PYGOD– смотрим на задачу как на поиск аномалий в графах (и то, насколько аномалия должна быть более структурной чем контекстной – необучаемый параметр в лоссе), здесь в основном графовые автоэнкодеры
Но это прям затравочка, тема популярная, плюс графы меняются по времени (и структура и свойства вершин / ребер), даже на последнем NIPS (а это декабрь) показали новый алгоритм поиска аномалий на графах UniGAD. И еще на KDD’24 (сам еще не успел прочесть читал, но denoising диффузионка звучит как что-то интересное)

Подборка актуальных статей по теме

2. PTLS от Sber AI лабы сначала ssl-эмбеддим транзакции, потом закидываем в табличные методы

Если уже нашли и даже добились какой-то разметки, но единичек не очень много сотни), то помогает pseudolabelling– строите график того как метрика (обычно recall) зависит от того, с какого порога предикты единичек первой моделью досыпать в трейн второй. Выбираете порог, максимизирующий recall -- не панацея конечно, но до +10% полноты получалось выжимать.

Ну и supervised – здесь относительно понятно, кроме того на какой event rate калиброваться, да и надо ли )
01/23/2025, 09:36
t.me/datarascals/137
Сотрудница поделилась секретной техникой, которая способна убрать все правки и лишние задачи от твоего босса вмиг.

Пользуемся.
01/22/2025, 11:06
t.me/datarascals/136
почему статья про обезьянку до сих пор актуальна, поясняет опытный работник:
01/22/2025, 11:06
t.me/datarascals/135
(2/2)
И необходимость такой структуры – такой же закон физики как невозможность встать со стула, не подавшись корпусом вперед – попробуйте, кстати.

Отсюда следует вывод 2: кому-то в компании тоже должен быть нужен ваш рост, не только вам

И этим кем-то может выступать не только матричный руководитель, но и CPO / PO!
Когда такое бывает? Когда его продукт растет и внутри выделяются продукты помельче, туда надо нанимать команды, и это ваш шанс вырасти из синьора в лида и из тимлида в руководителя направления (CDO, например) или заняться RnD для такого крупного продукта.

Вывод 3: выбирать продукт относясь к нему как к инвестиции собственного времени, – выбирать тот, который вырастет, где возможно открытие новых бизнес-линий.

И вот этот способ (расти вместе с правильно выбранным продуктом) самый простой – прилив поднимает все лодки.

Остальные потребуют либо смену продукта – а это не очень-то и отличается от смены работы, либо вовлечение матричных руководителей и целеполагание уже от них (а с двумя руководителями работать сложнее чем с одним).

Здесь кому что нравится – кому-то нравится в продукте сидеть, мне нравится проектная работа с понятным результатом в понятный срок.
01/22/2025, 09:21
t.me/datarascals/134
Search results are limited to 100 messages.
Some features are available to premium users only.
You need to buy subscription to use them.
Filter
Message type
Similar message chronology:
Newest first
Similar messages not found
Messages
Find similar avatars
Channels 0
High
Title
Subscribers
No results match your search criteria