O seu período de teste terminou!
Para acesso total à funcionalidade, pague uma subscrição premium
RO
Инжиниринг Данных
https://t.me/rockyourdata
Idade do canal
Criado
Linguagem
Russo
0.9%
ER (semana)
6.45%
ERRAR (semana)

Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 9 лет в FAANG

Mensagens Estatísticas
Repostagens e citações
Redes de publicação
Satélites
Contatos
História
Principais categorias
As principais categorias de mensagens aparecerão aqui.
Principais menções
Não foram detectadas menções significativas.
Encontrado 179 resultados
43
3
2.9 k
Привет от Карлсона, который живет на крыше:)
24.04.2025, 23:27
t.me/rockyourdata/5185
2
4
2.7 k
Давненько никто никого не покупал. Свершилось - Datadog acquires AI-powered observability startup Metaplane (AI там и не пахнет, так то). DataDog популярный и хороший инструмент для infrustructure observability и неплохо справляется с Data Observability. Облачная платформа. Но дорогая, я писал ранее про 65млн$ в год у Coinbase.

За сколько купили Metaplane — непонятно. Зачем — тоже не совсем ясно.
DataDog — популярное решение, и практически во всех компаниях, где я работал, он был в использовании. Ближайший бесплатный аналог — это Prometheus и Grafana, которые можно неплохо развернуть в Kubernetes.

С Metaplane я работал только на одном проекте. Мне досталась команда инженеров, аналитиков и ML-специалистов, а также набор разных инструментов: Snowflake, Metabase, Dagster, dbt, Keebo (для оптимизации затрат в Snowflake) и Metaplane. Люди, которые внедряли эти решения, к тому моменту уже ушли. Компания продолжала платить вендору, но инструментом никто не пользовался.

Я решил его оставить. Один аналитик, который очень хотел стать дата-инженером, вызвался стать экспертом по Metaplane. Он до сих пор разбирается 🙂

Расскажите про ваш опыт с Metaplane и DataDog или аналогами.
24.04.2025, 09:01
t.me/rockyourdata/5184
12
59
3.3 k
Как измерить эффективность дата команды? Самый простой вариант это ROI (возврат инвестиций).


Солгасно статье How to think about the ROI of data work

ROI = 🎳 × 🎳(🖇) × 💰 − ⏳, где

🎳 (кегли) — это количество специалистов по данным, на которых повлияла ваша работа

🖇 (скрепка) — это степень воздействия на каждого из них (насколько вы упростили им работу)

💰 (мешок денег) — это влияние на бизнес, которое они могут оказать благодаря вашей работе

⏳ (песочные часы) — это время, которое вы потратили на выполнение задачи

Пример на практике: Если вы сделали улучшение, которым пользуются 5 аналитиков, и оно ускоряет их работу на 20%, а они, в свою очередь, приносят ощутимую пользу бизнесу — то вы проявили свою ценность.

Можно выделить 2 направления:

- KPI-персоны (ближе к бизнесу) — фокус на сокращение шагов до метрик и выбор самых "окупаемых" задач.

- Системные роли (инфраструктура) — фокус на масштабировании пользы (больше потребителей + выше эффективность).


На практике ROI чаще используется вендорами, чтобы продать "обещания" и "фичи", которых ещё нет или которые находятся в стадии беты. Это инструмент маркетинга, а не измерения реальной пользы.

Измерить реальный ROI от работы в данных — крайне сложно. Если считать только количество часов, которые якобы сэкономили — картина получается однобокой. Ведь организация продолжает платить зарплату, и эти издержки редко учитываются (а чаще вообще не раскрываются). Можно, конечно, сделать красивую презентацию и даже убедить руководство — но это больше похоже на иллюзию, чем на настоящие цели.

Гораздо продуктивнее работать в режиме OKR или хотя бы грамотно планировать спринты, чтобы:

каждая задача была привязана к бизнес-целям компании,

и результат можно было измерить.

Такой подход позволяет действительно продемонстрировать IMPACT и VALUE — а это напрямую влияет и на успех команды, и на карьерный рост каждого.

Как у вас с ROI? Например, хороший ли у вас ROI связанный с покупкой новой модели iPhone/Android?:)
23.04.2025, 19:03
t.me/rockyourdata/5183
15
26
4.0 k
Один из свежих, хотя и не совсем новых трендов — это возврат от распределённых вычислений (distributed computing) к вычислениям на одном узле, как в старые добрые времена SMP. Пример — DuckDB.

На картинке — типичный стек с DuckDB: всё локально, быстро, удобно. Но возникает вопрос — что произойдёт, если такой «одиночка» упадёт? Как быстро можно восстановиться?

Для большинства небольших и средних компаний объёма до 1 ТБ вполне достаточно, а всё, что не помещается, можно спокойно держать рядом — например, в Apache Iceberg на S3.


Использовал бы я duckDB? Ответ простой, для себя лично 100%, а вот как наемный сотрудник лучше делать ставку на проверенные технологии Spark, Trino, Snowflake и тп. Обычно так все и делают:)
23.04.2025, 03:00
t.me/rockyourdata/5182
Repostar
26
72
3.7 k
Вопросы на интервью: №5

What KPIs did you have in your previous/current role?

📌 А дальше - почти всегда:
• How did you track progress? What tools did you use?

📌 Для руководителей добавят:
• How do you know the KPI is right?
• How do you help others understand and reach their KPIs?

Разговор про KPIs важен, потому что дает понять, какие были приоритеты, как измерялся прогресс, какой был "единый язык" команды, на основе чего принимались решения и в итоге - как это влияло на рост и развитие этого кандидата (или как развитие кандидата влияло на улучшение KPIs😅).

❗ Поэтому важно этот ответ подготовить заранее.

Рассказать:
— какие KPI были (и на какие цели завязаны)
— как вы их отслеживали (инструменты, отчёты, циклы)
— были ли они формально заданы или определялись вами

One of our KPIs was reducing time-to-fill for senior sales roles. We used Workday dashboards and weekly funnel reviews. Within one quarter, we improved it from 48 to 32 days by optimizing JD alignment and switching to a new agency partner.

❗ Если KPI не было - не страшно

Страшно - когда кандидат говорит: "KPI не было" - и зависает 🌚

Даже в этом случае, главное - показать, как вы всё равно оценивали свою эффективность.

“I didn’t have formal KPIs, but I tracked my impact via turnaround time, project milestones, or stakeholder feedback”

“In my supporting role, success was reflected in how smoothly others could perform. I focused on responsiveness and being a reliable partner”

Даже если в компании не было системы KPI, хороший кандидат сам способен её для себя применить или хотя бы понимать, что важно в его работе. Бенчмарки, практика в других отделах, логика бизнеса - всё годится.

😬 Маленький личный кейс

Однажды кандидатка-рекрутер сказала, что закрывает вакансии от IC до VP за 2 недели, при том что до этого она упомянула, что одновременно ведёт 15–20 ролей. Звучит красиво, но в реальности невозможно. Я задала пару уточняющих вопросов - и всё посыпалось. Было грустно (мне).

Моё мнение:
Кандидаты, которые не могут внятно рассказать про KPI - чаще всего из незрелых бизнесов, не привыкли мыслить через ценность и вряд ли понимают, куда им расти. А как развиваться, если ты не можешь измерить, где ты вообще?

В предыдущих сериях:
❓Вопрос №1 - Tell me about yourself
❓Вопрос №2 - Why do you want to work at our company?
Вопрос №3 - Why are you looking for a new job?
Вопрос №4 - What were you expected to accomplish when you first joined your previous role?
22.04.2025, 17:37
t.me/rockyourdata/5181
16
5
3.2 k
Вот только закончили книгу по Snowflake, начинаем по Azure Databricks. Было много вопросов нафига козе баян делать Azure если есть просто Databricks. Мы им тактично объяснили зачем и нам дали добро.
18.04.2025, 22:00
t.me/rockyourdata/5180
18
45
3.7 k
Хотите разбираться в Big Data так, как это делают специалисты Яндекса? Тогда присоединяйтесь к бесплатному интенсиву ШАДа Big DWH Week!

Вас ждёт 8 онлайн-занятий, на которых вы познакомитесь с YTsaurus — платформой для распределённого хранения и обработки данных. Вы разберётесь в её архитектуре и масштабировании, а также научитесь настраивать систему под свои задачи.

Интенсив открытый, поэтому зарегистрироваться может каждый. Однако интереснее всего программа будет тем, кто уже работает с данными: опытным бэкенд-разработчикам и разработчикам баз данных, инженерам и аналитикам данных, а также студентам технических направлений.

Регистрируйтесь до 25 апреля и прокачивайтесь в Big Data вместе с экспертами Яндекса и ШАДа! Все подробности — по ссылке.
18.04.2025, 09:59
t.me/rockyourdata/5179
42
68
3.9 k
Давайте немного отвлекемся от ИТ будней, санкций, AI новостей и отжигов Трампа, и посмотрим на последние модные тренды.

После coachella, где собираются все модники появился четкий модный тренд на babushka style men outfit, где было куча мужиков в косынках.

Просто знайте, что сандали с носками это еще не вверх модной пирамиды, теперь можно и косынку надеть!😅
18.04.2025, 07:01
t.me/rockyourdata/5178
22
13
3.8 k
🤖 LLM меняют правила игры — не только в IT, но и в образовании, на работе и в общении.

На Data Fusion ВТБ и Институт ИИ МГУ представили большое исследование: поговорили с экспертами из МГУ, МФТИ, ВШЭ, РАН и собрали взгляд с двух сторон — технической и гуманитарной.

Что говорят?

- Вместо исчезающих профессий — их апгрейд. Программисты меньше пишут рутину, больше фокусируются на логике и тестировании. Дизайнеры — на креативе.
- Учиться проще: цифровой «двойник» преподавателя всегда на связи. Но и соблазн сдать всё «через нейросеть» — тоже растёт.
- В коммуникациях — новые правила игры. Мы всё чаще доверяем моделям как людям. Это удобно, но критическое мышление важно сохранить.
17.04.2025, 19:53
t.me/rockyourdata/5177
18
20
4.1 k
Яндекс Вертикали зовут в свои сервисы продуктовых аналитиков — превращать результаты исследований в точки роста и делать жизнь миллионов пользователей удобнее

Ищут продуктовых аналитиков в Авто.ру и Яндекс Путешествия. Нужно будет проверять гипотезы, искать точки роста и влиять на все элементы своего сервиса.

От кандидатов ждут релевантный опыт работы от 2 лет, уверенное владение SQL, умение проводить A/B-тестирование, способность презентовать результаты и аргументировать свою точку зрения.

От себя обещают все плюшки Яндекса — от расширенной медицинской страховки до гибкого графика и спорта.

Узнать подробности и откликнуться:

Продуктовый аналитик в Яндекс Путешествия

Продуктовый аналитик в Авто.ру

Приходите в команду, которая действительно любит свой продукт и неравнодушна к результату 💛
17.04.2025, 17:13
t.me/rockyourdata/5176
57
125
5.0 k
Pet проект года🙌
16.04.2025, 23:35
t.me/rockyourdata/5175
19
41
4.4 k
🚀 🚀 🚀

📅 Вебинар - сегодня (15 апреля в 19:00 по мск)

Тема: История одного проекта с большим техническим долгом

🎙Спикер - Роман Зыков

🔍Описание:
На вебинаре разберём реальный кейс миграции проекта (MSSQL, Reporting services, Looker), накопившего значительный технический долг, на современный и полностью open-source технологический стек.

🔸 SQLMesh вместо морально устаревшего dbt - быстрые, прозрачные и масштабируемые преобразования данных.
🔸 dltHub - надежный и гибкий инструмент для транспорта данных.
🔸 PostgreSQL - универсальное и проверенное временем хранилище данных.
🔸 Metabase - удобный инструмент self-service аналитики, идеально подходящий для команд любой величины.

📕 На встрече обсудим:

➡️С какими техническими сложностями столкнулись при миграции?

➡️Почему именно этот стек, а не другой?

➡️Какие уроки извлекли и как минимизировать технический долг в будущем?

Вебинар будет полезен инженерам данных, аналитикам и техническим руководителям, которые хотят понять, как оптимально организовать техническую инфраструктуру своих проектов.

⚠️ Кстати, а вы знали? - DBT забанила SQLMesh для выступлению на конференции Coalesce в Вегасе 😱

🔗 Телеграм канал спикера @topdatalab


👨‍💻 Приходите на вебинар, трансляция будет в этом канале - онлайн

🚀🚀🚀

Join the meeting: https://meet.google.com/xfn-kzgv-cwy
15.04.2025, 09:59
t.me/rockyourdata/5171
49
2
3.6 k
Мне сказали что 7 figures data leaders должны играть в гольф, наверстываем 👌
13.04.2025, 03:39
t.me/rockyourdata/5170
135
100
4.3 k
ну наконец-то хоть кто-то это сделал...а за export в excel все 50% надо!
12.04.2025, 13:16
t.me/rockyourdata/5169
32
7
3.7 k
Всем привет, завтра у нас небольшой data&drinks в Seattle, встречаемся прям вот на этом месте, где фотография, можно взять плавки

ps у нас есть группа с прошлого раза, пишите в комментарии, я добавлю.
12.04.2025, 05:15
t.me/rockyourdata/5168
10
39
3.9 k
Оптимизируем работу со Spark и строим рекомендательные системы

Многие рекомендательные системы строятся на Spark, но при обработке больших данных с ним часто возникают проблемы. Кроме этого, это недешевое решение.

На бесплатном вебинаре 15 апреля в 17:00 расскажем, как оптимизировать работу со Spark, и в реальном времени обучим модель, чтобы показать эффективность нашего подхода.

Что еще обсудим

🔹 Как выстроить архитектуру для рекомендательных систем в облаке, On-premise или гибриде.
🔹 Как оптимизировать расходы и работу со Spark.
🔹 Workshop: как в облачном Spark сделать рекомендательную систему для определения степени рисков ишемической болезни сердца.

Кому будет полезен вебинар

⚫️ML-инженерам.
⚫️Архитекторам, Data-инженерам, Data-аналитикам.
⚫️Руководителям ML-направлений и Data-офисов.

Зарегистрироваться
11.04.2025, 21:41
t.me/rockyourdata/5167
60
9
4.2 k
Правильные корпоративные расходы🍩
11.04.2025, 05:46
t.me/rockyourdata/5166
48
100
4.1 k
Запись Greenplum вебинара.
10.04.2025, 11:30
t.me/rockyourdata/5165
Запись вебинара про Greenplum
10.04.2025, 11:25
t.me/rockyourdata/5164
Запись вебинара про Greenplum
10.04.2025, 11:22
t.me/rockyourdata/5163
11
25
4.1 k
IMG_0176.MP4
Знаете, сколько A/B-тестов проводит Авито в год?

4000+! Зачем? Растить основные показатели бизнеса. Например, количество покупателей и выручка увеличивается на 10-20% в год.

И тут, конечно, важно не только количество тестов, но и их качество. Чтобы это было по-настоящему эффективно, ребята разработали собственную A/Bшницу — Trisigma. Сначала обкатали её внутри, а сейчас она доступна для всех продуктовых команд.

Чтобы рассказать, что у инструмента «под капотом» и поделиться аналитической экспертизой, команда Авито проведёт митап 16 апреля в своём московском офисе на Лесной.

В программе не только доклады, но и нетворкинг! Прочитать подробнее и зарегистрироваться можно тут.

Кстати, если не можете прийти офлайн, то зарегистрироваться можно и онлайн!
10.04.2025, 09:59
t.me/rockyourdata/5162
71
25
3.7 k
Поделюсь сегодняшними наблюдениями, связанными с performance review. Лично я этот процесс никогда не любил. Но в последнее время мне приходится проводить его для инженеров, и вот примерный диалог:

– Чувак, привет! У нас тут performance review. Давай сделаем всё по красоте — я вижу, ты вкалываешь много. Во-первых, давай полегче чутка, всё-таки work-life balance важен. (А про себя думаю: если чувак свалит, тут вообще всё развалится.)

Он мне что-то отвечает на английском.

– Дальше я прошу его сказать, сколько лет он в компании, на какую зарплату пришёл (да-да, мой любимый вопрос — СКОЛЬКО ТЫ ПОЛУЧАЕШЬ?!, наконец-то для дела пригодился), когда был последний подъём зарплаты и т.п.

Получаю всю информацию, прикидываю, сколько там места есть, чтобы подтянуть его зарплату до нормальной по Канаде (я же, как-никак, вообще-то эксперт по зарплатным ожиданиям).

– Даю ему пару советов, что написать в performance review, чтобы показать IMPACT и VALUE. Заодно спрашиваю, на какую конференцию он хочет сгонять.

И так — со всей командой.

Далее всю эту информацию сгружаю VP, чтобы, наконец-то, чувакам платили нормально, отправляли на конференции и вообще — всем было по кайфу.

В моём понимании, performance инженера — бинарный: либо ты перформишь и делаешь нужные и полезные штуки для команды и бизнеса, либо нет. Сиськи мять, делать 360 review и прочие HR-фреймворки — это, конечно, весело и забавно, но для меня это устаревший процесс.

У меня именно упор на то, что команда должна быть мега счастлива, я хочу показать как мы их ценим, заботимся, и при каждом удобном случае поднимаем зарплату или другие бенефиты, даже если это будет опцион, мелочь а приятно. Мы вместе придумываем темы и темки, чтобы был максимальный IMPACT и VALUE, а дальше мы это все продаем боссам, строим, внедряем. Короче всем кайф, работай не хочу.

---

А вот после обеда я поменялся ролями — теперь я стал инженером. И мне сделали 360 performance review. Всё было ничего, пока в одном месте — «количество работы» — мне не поставили 3 из 5. И тут я забыл все свои книги и тренинги по софт-скиллам, и сказал, что это BULLSHIT и всё такое. Намекнул менеджеру, что на его месте я бы всей команде поставил 4 и 5, потому что все молодцы и хорошо работают 😆

Получается, в этом самом ревью оценки по категориям не объективны. Менеджер мне даже не смог ответить на вопрос как и в чем измерять «количество работы». И самое главное — у человека всегда есть выбор: делать свою работу хорошо или фокусироваться на performance review (играть в политику) в ущерб целям организации. К сожалению, политики в индустрии больше, и чем крупнее компания, тем меньше здравого смысла и больше bullshit.

А как у вас проходит performance review? Any luck? Как минимум должны накинуть 2% индексации. Хотя… вчера купил oat milk latte за $8 и офигел от цен. Хотя это не вода в Кофемании.

PS Согласно новомодным введниям Shopify я стараюсь использовать AI везде, поэтому попросил проверить грамматику, отсюда и картинка для привлечения внимания=)
10.04.2025, 02:59
t.me/rockyourdata/5161
15
11
3.8 k
Собираемся на Data Fusion!

Не просто приходим, а становимся частью чего-то большего. Каждый из нас — фрагмент цифровой картины. Вместе — архитекторы решений, будущего, логики.

Data Fusion — крупнейшая конференция по работе с данными и ИИ место силы для тех, кто умеет собираться. Внутри, вовне, с другими. 16-17 апреля, Москва, кластер Ломоносов.
9.04.2025, 17:41
t.me/rockyourdata/5160
16
53
3.8 k
А как же:
"Microsoft сделала огромный подарок: Режим Агента (Agent mode) стал доступен всем пользователям Visual Studio Code!"???
https://habr.com/ru/companies/bar/news/898538/
9.04.2025, 00:30
t.me/rockyourdata/5159
55
74
3.7 k
В телеграм-каналах на техническую тематику появляется всё больше информации про использование AI для прикладных задач: про требования при приёме на работу, про отбор кандидатов, которым разрешено выполнять тестовые задания с использованием AI.

Нравится, не нравится — терпи, моя красавица нужно привыкать к новой реальности, где AI становится ещё одним инструментом в вашем арсенале, который помогает быть сверхэффективным.

Вы можете стать гораздо продуктивнее с AI, если будете понимать, как он работает, и просто делегировать ему часть задач. Пока что эти инструменты требуют контроля и проверки, но в будущем ситуация может сильно измениться — и уже они будут контролировать и проверять нас 🙂

За последние несколько дней с помощью AI я:

- Насоздавал dbt-моделей (SQL, YAML) в нескольких проектах — это сотни строк кода, написанных за меня;

- Конвертировал 15 таблиц из SQL Server в Snowflake и создал Snowflake Stored Procedures с MERGE;

- Контрибьютил в репозиторий с Protobuf и Go, имея минимальные знания по этим технологиям;

- Разрулил проблемы с PyTest в Dagster;

- Участвовал в двух хакатонах, где использовались хранилища данных и LLMs;

- Занимался troubleshooting’ом всего, что ломалось и не работало;

- И многое другое.

Физически всё это было бы невозможно сделать за такой короткий срок.

Каждый раз, когда работаю с Cursor AI, думаю: «Всё классно», — но пока Cursor не может сам выполнять запросы к базе данных «из коробки».

То есть, пока что еще много COPY-PASTE (ручного труда).

И вот тут бы отлично подошел бы MCP. Как раз про него свежая статья - MCP Protocol: a new AI dev tools building block

- MCP — это как USB-C для ИИ-инструментов: универсальный интерфейс для подключения внешних систем к LLM-интегрированным IDE.

- MCP делает возможным, например, обращаться к базе данных напрямую из редактора кода, без переключения на PgAdmin или другие GUI-инструменты.

- Используя MCP, IDE может автоматически обращаться к БД, находить нужные таблицы, строить SQL-запросы и интерпретировать результаты, помогая разработчику.

- MCP вдохновлён Language Server Protocol (LSP) от Microsoft, который сделал возможной легкую интеграцию поддержки языков программирования в IDE.

- MCP быстро набрал популярность: VS Code, Cursor, Windsurf, Zed, Claude Desktop, Neovim и др. уже поддерживают MCP или планируют.

- Разработчики могут “разговаривать” с базами данных, CI/CD, системами фич-флагов и т.п. на естественном языке прямо в IDE.

- Протокол ещё очень сырой, но потенциал — огромный: как для повышения продуктивности разработчиков, так и для развития ИИ-агентов.

🎯 Основная идея:
Разработчику больше не нужно переключаться между инструментами. Он может задавать вопросы на естественном языке прямо в IDE, а LLM, используя MCP, под капотом подключается к нужным системам (БД, тикетинг и т.п.) и возвращает результат.
8.04.2025, 22:31
t.me/rockyourdata/5158
52
58
4.3 k
🚀 🚀 🚀

📅 Вебинар - сегодня (8 апреля в 19:00 по мск)
Тема вебинара: "Всё что нужно знать о Greenplum"

🔍Описание:
🔸На реальных примерах узнаем, что такое Greenplum.
🔸Чем сегмент отличается от сегмент-хоста?
🔸Что такое партицирование, а что такое дистрибуция?
🔸Как Greenplum хранит данные для эффективной работы MPP кластера?
🔸Что такое Motion данных, как и зачем его избегать?
🔸Что интересного можно увидеть в плане запроса?
🔸Как эффективно грузить данные в GP?
🔸Разберём эти и другие вопросы, а самое главное: увидим всё наглядно и на реальных примерах и задачах. Никакой теоритической воды, только факты и примеры.

🎙Спикер:
Nikita Tselishchev
Data Engineer в компании Unirest (KFC/Rostics).
Один из авторов курса https://yandex.cloud/ru/training/greenplum

🔗 Никита ведет канал про Дата инженериниг в телеграм @DataEngineeringDigest

👨‍💻 Приходите на вебинар, трансляция будет в этом канале - онлайн

🚀🚀🚀

#datalearn #вебинар
8.04.2025, 08:44
t.me/rockyourdata/5155
🚀 🚀 🚀

📅 Вебинар - сегодня (8 апреля в 19Ж00 по мск)
Тема вебинара: "Всё что нужно знать о Greenplum"

🔍Описание:
🔸На реальных примерах узнаем, что такое Greenplum.
🔸Чем сегмент отличается от сегмент-хоста?
🔸Что такое партицирование, а что такое дистрибуция?
🔸Как Greenplum хранит данные для эффективной работы MPP кластера?
🔸Что такое Motion данных, как и зачем его избегать?
🔸Что интересного можно увидеть в плане запроса?
🔸Как эффективно грузить данные в GP?
🔸Разберём эти и другие вопросы, а самое главное: увидим всё наглядно и на реальных примерах и задачах. Никакой теоритической воды, только факты и примеры.

🎙Спикер:
Nikita Tselishchev
Data Engineer в компании Unirest (KFC/Rostics). Один из авторов курса https://yandex.cloud/ru/training/greenplum

🔗 Никита ведет канал про Дата инженериниг в телеграм @DataEngineeringDigest

👨‍💻 Приходите на вебинар, трансляция будет в этом канале - онлайн

🚀🚀🚀

#datalearn #Вебинар
8.04.2025, 08:42
t.me/rockyourdata/5154
51
5
3.9 k
Сегодня все празднуют рекорд Овечкина, поэтому можно праздновать и не работать! С чем его и поздравляем🎉
7.04.2025, 21:00
t.me/rockyourdata/5152
33
4.0 k
7.04.2025, 17:45
t.me/rockyourdata/5151
29
33
3.9 k
Когда говорят про ИИ, чаще вспоминают ChatGPT или Gemini. Но теперь в этом списке есть и A-Vibe от Авито — легкая, но мощная модель, которая обогнала западные аналоги от OpenAI, Google и Anthropic в тестах на русском языке. В независимом российском бенчмарке MERA A-Vibe заняла первое место среди облегченных моделей (до 10 млрд параметров).

В отличие от GPT-4o или Claude, нейросеть от Авито изначально заточена под русскоязычные запросы и одновременно обрабатывает до 32 тысяч токенов. Это позволяет ей понимать смысл текста, вести диалоги и генерировать код лучше, чем GPT-4o mini, Gemma 3 27B, Claude 3.5 Haiku, Mistral Large и другие популярные нейросети.

Авито уже использует модель в своих сервисах, а в будущем может открыть ее код. И если это произойдет, у малого бизнеса и разработчиков появится доступ к мощному ИИ без гигантских затрат.

Познакомиться с рейтингом можно на сайте MERA. В фильтре «Размер модели» выберите «≥5B — 10B», чтобы получить рейтинг среди небольших моделей. Цифры Human Benchmark — это результат тестирования реальных людей.
7.04.2025, 17:45
t.me/rockyourdata/5150
19
85
3.7 k
Понравилась статья The Reality of Tech Interviews in 2025.

Так как я сам регулярно прохожу собеседования на позиции от Staff Data Engineer до VP of Data Engineering & Analytics, чтобы оставаться в курсе происходящего в индустрии, понимать реальные ожидания по зарплате и уровню, а также следить за эволюцией процессов найма, — статья отлично отражает текущие проблемы для инженеров. Менеджерам среднего звена еще сложней.

В Surfalytics мы придерживаемся принципа прозрачности: делимся между собой зарплатными ожиданиями, предложениями и опытом прохождения интервью. Да и просто приходится собеседовать аналитиков и инженеров.

На мой взгляд, отечественный рынок ждут схожие изменения — пусть и с задержкой, но вектор очевиден. Легче точно не станет.

У меня у самого есть несколько замечательных примеров, когда я успешно прошел все этапы и в ожидании офера получал отказ, так как выбрали другого кандидата, который больше понравился или согласен на меньшие деньги (на 50% меньше).

Ключевые моменты из статьи (ChatGPT):

Ключевые проблемы и вызовы тех. собеседований в 2025 году:

1. Рынок противоречий:
- Спрос на инженеров восстанавливается, но *весьма избирательно*.
- Полный переход к remote свернулся: таких позиций становится всё меньше.

2. Ужесточение требований:
- Уровень сложности DSA и system design интервью вырос на 1 "стандартное отклонение".
- Алгоритмы LeetCode Hard стали нормой даже на mid/senior уровнях.
- От кандидатов требуют чистого кода, обработки ошибок и валидации — даже в лимите по времени.

3. Столкновение с реалиями:
- Большинство стартапов и Big Tech усилили этап team match — он стал ещё одним отбором, не гарантирующим оффер даже после успешного прохождения технических этапов.
- Много квалифицированных кандидатов → компании стали избирательны до мелочей.

4. Сильный дисбаланс в спросе:
- AI-инфраструктура, ML Ops и генеративный AI — горячие направления с высокими ЗП.
- Frontend, backend и mobile — сильно охлаждённый рынок с низкой текучкой и сокращёнными командами.

5. Драматическое падение шансов для джунов:
- Университетские наймы массово урезаны.
- Даже выпускники топовых вузов, проходят по 100+ собеседований и не получают ни одного оффера.

6. Давление на EM и Staff-инженеров:
- Менеджеров требуют "рукастых", умеющих писать код, а не просто управлять.
- Staff-инженеров часто понижают в уровне (downleveling) — предлагают позиции на ступень ниже, даже при хорошем перформансе.

7. Разрыв между Big Tech и стартапами в интервью-форматах:
- FAANG по-прежнему держится за алгоритмические интервью.
- Стартапы и mid-size компании внедряют реалистичные задачи, проекты и разрешают использование AI-инструментов.

8. Компенсации и конкуренция:
- В AI-инфраструктуре можно получить $1M+ total comp, но только при *узкоспециализированном опыте*.
- Инженеры с узкой специализацией в закрытых технологиях Google/Meta — менее конкурентоспособны на открытом рынке.

9. Влияние ИИ:
- Кандидаты массово используют LLM на фоне неадаптированных интервью.
- Это подрывает смысл классических задач — но Big Tech пока не спешит менять подход.

10. Проблема "потерянного поколения" инженеров:
- Массовое сокращение входа новых разработчиков может привести к дефициту mid-level через 3–5 лет.

Как у вас дела обстоят в ваших краях?
7.04.2025, 17:03
t.me/rockyourdata/5149
96
13
3.9 k
Внедрю и смигрирую аналитическое решение в облако или обратно, наберу и обучу команду (или уволю, если выгоднее), достигну бизнес-целей и эффективно освою AI/ML-бюджет. Обращайтесь — дорого, долго, но зато качественно!
7.04.2025, 07:10
t.me/rockyourdata/5148
36
28
4.2 k
На картинке умная мысль, что технологии это не стратегия, стратегия про другое.

Но, настоящая стратегия это дорого, сложно, долго и не понятно. Куда проще мигрировать с А на Б.

Измерять можно кол-во таблиц, дашбордов и строчек кодов и стоимостью старых лицензий и вендоров.

А новые косты, это не косты, это инвестиции с высоким ROI🤩
6.04.2025, 23:07
t.me/rockyourdata/5147
101
143
4.2 k
Лучшая подготовка перед собесом! А не ваш этот leetcode!
6.04.2025, 01:34
t.me/rockyourdata/5146
43
130
3.7 k
Удобный подход к написанию SQL -> Pipe SQL

Есть даже white paper на эту тему - SQL Has Problems. We Can Fix Them: Pipe Syntax In SQL от Google Research.

Идея очент похожа на написание PySpark, Pandas и другие подходы с использованием dataframes.

Все последовательно и лаконично.

SQL Pipe есть у DuckDB https://duckdb.org/community_extensions/extensions/psql.html

И теперь у Databricks в их свежем релизе.
5.04.2025, 04:38
t.me/rockyourdata/5145
9
25
4.0 k
Высшее на новом уровне: онлайн-магистратура от Яндекса и НИЯУ МИФИ для специалистов по работе с данными.

Здесь фундаментальные знания и практика для карьерного роста, а ещё — учёба, которую можно совмещать с работой и жизнью.

Всё о программе — на дне открытых дверей:

— Расскажем про разные траектории обучения и как после выпуска стать ML-инженером, CV-инженером, NLP-инженером, Data Scientist или Data Engineer.

— Обсудим, какие навыки будут у выпускников, чтобы соответствовать рынку и требованиям работодателей.

— Поговорим про поступление: сроки, экзамены, документы, оплата.

Спикеры:

Станислав Павлов, директор по AI, Positive Technologies.

Павел Рябов, академический руководитель программы, заместитель директора Института лазерных и плазменных технологий, НИЯУ МИФИ.

Антон Моргунов, Senior инженер по компьютерному зрению, Базис. Центр, академический руководитель программы, Яндекс Практикум.

Александр Югов, Curriculum Lead профессии «Инженер данных», Яндекс Практикум.

Ждём вас 9 апреля в 19:00 мск.

Зарегистрироваться на встречу
4.04.2025, 09:59
t.me/rockyourdata/5144
29
112
3.6 k
Open AI запустил академию, где много разных программ обучения https://academy.openai.com
4.04.2025, 08:03
t.me/rockyourdata/5143
17
30
3.8 k
А и В сидели на трубе,
А упало, В пропало, кто остался на трубе?

Грустный продуктовый аналитик.

Чтобы никто не грустил, мы запускаем онлайн-серию технологических митапов от hh.ru

Первая встреча состоится 15 апреля. Спикерами будут специалисты hh.ru, Туту и Ozon. Что будут рассказывать? Не темы, а просто находки!

• Как Process mining помогает улучшить процесс принятия решений в A/B-тестах;
• Как в hh.ru устроен пайплайн-расчет ETL в A/B-тестах;
• A/B-тестирование, как метод полного контроля за принятием решений.

Встречаемся 15 апреля 19:00.

Подробности и регистрация по ссылке.

Реклама.
Рекламодатель ООО «Хэдхантер», ИНН 7718620740
Erid: 2VtzqwKs1K7
3.04.2025, 09:59
t.me/rockyourdata/5142
10
21
3.8 k
Microsoft проводит AI challenge и победители (аж 50,000 человек) получат купоны на экзамены Microsoft.

Хотя вон ChatGPT генерит сертификаты не хуже настоящих😆
3.04.2025, 09:02
t.me/rockyourdata/5141
53
7
3.7 k
Даже не верится, мы переписали нашу книгу 2019 года (между прочим была самая первая книга по снежинке) и вот она почти готова, добавили всяких свежестей и полезностей.

А теперь работаем над предложением по книге Data Engineering with Azure Databricks.

Издательство все переживает, зачем Azure Databricks копия, если есть (устаревшая по Databricks), но они не знают насколько Azure популярен в больших enterprise, и что там кроме Databricks (на azure) ничего нет нормального.
2.04.2025, 23:34
t.me/rockyourdata/5140
Repostar
25
56
3.5 k
Всем привет! 24 апреля в Москве в офисе Лемана Тех пройдет очередной митап по технологиям Trino и Apache Iceberg! Также будет доступна онлайн-трансляция.

В программе:
- Доклад от Лемана Тех про миграцию на Trino
- Доклад от Азбуки Вкуса про использование каталога Nessie
- Круглый стол про проблемы внедрения lakehouse с инженерами T-Банк, S7 Airlines, Лемана Тех и Кверифай Лабс

Регистрация по ссылке: https://cedrusdata.timepad.ru/event/3299844/
2.04.2025, 22:02
t.me/rockyourdata/5139
30
25
4.3 k
Я всегда думал, что Power BI бесплатный=) А оказывается они 1го апреля подняли цену, но анонс был почти сразу после моего дня рождения в ноябре☺️.

В потоке сегодняшних новостей сначало было непонятно - это правда или нет, оказывается правда.

https://powerbi.microsoft.com/en-us/blog/important-update-to-microsoft-power-bi-pricing/

Сейчас все заботятся об эффективности ценообразования и пытаюся свести юнит экономику.

У меня совсем недавно был хороший пример с Dagster.

Компания использует Dagster (cloud), как главный инструмент орекстрации. Такой аналог Airflow, который отличается концептуально, но тоже использует Python. (Dagster vs. Airflow)

Они платили за местА, около 200-300 в месяц и все было супер. Потом Dagster сделал ход конем, и сказал, что у них теперь кредиты как взрослых компаний.

Даже есть хорошая статья про это - The Problem with Dagster.

В стартапе на 50 человек, в которой есть Snowflake, dbt, Dagster, Metabase все было замечательно пока ценник был контроллируемым.

Однако новая модель стала рассчитывать стоимость по кол-ву объектов материлизации. То есть 1 dbt model (1 SQL запрос) - это 1 актив (asset), и если каждый час вы выполняет запуск 200+ моделей, то за год можете посчитать кол-во кредитов.

Если раньше цена был flat, то теперь она будет расти пропорционально росту моделей. Добавьте сюда еще среду разработки и другие джобы, получается, что Dagster за только пол года сожрал кредитов на 15к US. Неплохо так.

Сам dagster сказал типа сорян, сами виноваты😂

И теперь, я пишу RAPID, про возможные варианты сокращения расходов. Если без замены Dagster, то я хочу просту поместить dbt core в AWS ECS, то есть запускать контейнер с dbt, а логи отправлять в DataDog. Из минусов, пропадает прозрачность DAGа в dbt, из плюсов экономия 15-25к US$ в год, при ценнике на Snowflake 60к US$ в год. Но будут и другие опции в документе, когда все сделаем, расскажу.

Кстати, про RAPID (decison making framework) я рассказал в Дата с Димой
2.04.2025, 05:55
t.me/rockyourdata/5138
182
21
4.1 k
После долгих лет в cloud я наконец-то понял: облако — переоценено.

Поэтому я решил инвестировать свое время в действительно важные и полезные навыки.

С гордостью сообщаю, что получил сертификацию по Oracle 9i и Informatica PowerCenter 7.1 — технологиям, которые когда-то держали весь enterprise-ETL на своих хрупких, но гордых серверах в серверных без кондиционеров.

В облаке слишком много YAML и нестабильных connection'ов
— а в on-prem — один раз настроил в 2005, и всё работает до сих пор
— плюс, приятно слышать, как твой сервер шумит в углу, пока ETL грузит данные 6 часов без сбоев

Следующие шаги:
☑️ Сертификация по Teradata CLI
☑️ Написание ETL-логики на COBOL
☑️ Настройка алертов через факс
1.04.2025, 19:20
t.me/rockyourdata/5137
3
8
4.0 k
Вебинар «Мультиклауд без сложностей: зачем, а главное, как строить распределенную инфраструктуру в 2025 году?».

2 апреля в 17:00 узнайте, как обеспечить непрерывную доступность ИТ-систем с помощью «второго плеча» в облаке. Эксперты VK Cloud расскажут, как создать резервную облачную площадку с минимальными начальными вложениями.

Вебинар поможет составить план миграции в облако VK Cloud для повышения отказоустойчивости сервисов. Вы узнаете, как создать гибридную инфраструктуру быстро и выгодно.

Программа

Мультиоблако для повышения отказоустойчивости.
Управление мультиоблачной инфраструктурой с помощью Terraform, CI/CD, GitOps.
Управление командой для эффективной работы гибридной инфраструктуры.
Как рассчитать общую стоимость владения мультиоблачной инфраструктурой и оптимизировать затраты на ее содержание.

Бонусы участникам

Зарегистрируйтесь, чтобы принять участие в вебинаре и получить специальное предложение от VK Cloud на создание резервной облачной площадки, миграции и разработки нового продукта.

Зарегистрироваться
1.04.2025, 12:35
t.me/rockyourdata/5136
45
51
3.9 k
Алексей шарашит только впуть свои zoomcamps! я уже даже придумал бизнес идею, делать их на русском языке, да еще и на отчесественном стэке😀

Ссылки:
🔸 MLOps Zoomcamp: starts May 5, 2025
🔸 LLM Zoomcamp: starts June 2, 2025
🔸 ML Zoomcamp: starts September 2025

Я них конечно есть и недостаки, часто связанные с узкостью контента и выбора вендоров, которые спонсируют данную инициативу, но аналогов нет!

Вообще идея делать Workshop на русском end-to-end проектов вместе с вендорами будет топчик!
1.04.2025, 00:21
t.me/rockyourdata/5135
22
18
3.6 k
Всем привет! Мы собираем команду для запуска AI-экспериментов в Екоме и Райдтехе Яндекса.

Наша цель — создать пространство для инженеров и продактов, которые хотят запускать эксперименты и видеть быстрые бизнес-результаты. Откликайтесь, если вы хотите реализовать свои идеи в крупном бизнесе, и у вас есть успешный опыт в запуске проектов с искусственным интеллектом!

Рассмотрим ваши идеи и найдем им лучшее применение в проектах. Присоединяйтесь к нам, чтобы вместе создавать будущее! 💡✨

Заполнить форму для отклика
31.03.2025, 09:55
t.me/rockyourdata/5134
42
42
3.5 k
Дата с Димой | Новости из мира BigTech | Эпизод 3

Youtube ▶️
Rutube ▶️

🎯 Ключевые темы выпуска:

📦 Snowflake + Iceberg — новые форматы хранения и поддержка Iceberg в Snowflake
⚙️ SQLMesh и нишевые тулзы — быстро, гибко, но пока сложно масштабировать
💾 Big Data ≠ Big Volume — 94% нагрузок укладываются в 10 ТБ, SSD — наше всё
🏗 DataBricks vs Snowflake — архитектура, ML, рост команд, кто кого
🧠 Семантический слой — YAML, NLP и осмысленные данные
🌍 Data Sharing и обмен метриками — как Facebook и Netflix делятся данными
🕵️‍♂️ Агенты и веб-скрейпинг — как автоматизировать сбор и обработку рыночных данных
🧑‍⚖️ Маск, Tesla и корпоративная монархия — теория заговора или новое будущее?
📉 Трамп и экономика — тарифы, эмиграция и как это влияет на рынок недвижимости
🔓 Open Source рулит — почему большие компании обожают открытые решения


💡 Источники:

https://aws.amazon.com/blogs/storage/connect-snowflake-to-s3-tables-using-the-sagemaker-lakehouse-iceberg-rest-endpoint/
https://duckdb.org/2025/03/14/preview-amazon-s3-tables.html
https://duckdb.org/2025/03/12/duckdb-ui
https://delta.io/blog/liquid-clustering/
https://www.databricks.com/blog/genie-conversation-apis-public-preview
https://docs.databricks.com/aws/en/lakehouse-architecture/reference
https://www.databricks.com/product/business-intelligence
https://github.com/mendableai/firecrawl
https://www.financialsamurai.com/
https://www.newyorker.com/culture/infinite-scroll/techno-fascism-comes-to-america-elon-musk
https://www.anthropic.com/news/model-context-protocol
https://github.com/ahujasid/blender-mcp
https://blog.cloudflare.com/ai-labyrinth/
https://www.instagram.com/pubity/p/DG-YawGvYhG/?img_index=1
https://dagster.io/blog/python-packages-primer-1
https://yandex.cloud/ru/training/compute
https://www.linkedin.com/posts/roy-lee-goat_i-just-got-kicked-out-of-columbia-for-taking-activity-7310834407433453568-tqAm
https://github.com/astronomer/airflow-ai-sdk
https://www.bloomberg.com/news/articles/2025-03-14/apple-s-siri-chief-calls-ai-delays-ugly-and-embarrassing-promises-fixes
https://github.com/drawdb
31.03.2025, 06:11
t.me/rockyourdata/5133
Какой Data Fusion без дата-соединений?

На конференции Data Fusion можно будет найти новых коллег, партнеров и инсайдеров из мира AI и DS. Организаторы специально к конференции выкатили Telegram-бот, который подберёт нужные контакты по принципу Tinder.

Свайпай анкеты и находи единомышленников, а пересечься вы сможете уже 16-17 апреля на площадке Data Fusion 🚀
30.03.2025, 23:20
t.me/rockyourdata/5132
19
62
3.1 k
Designing Data-Intensive Applications, 2nd Edition - надеюсь и так все понятно, что это сложная, скучная, но полезная книга для опытных специалистов.

The Product-Minded Engineer - подчеркивает важность развития эмпатии у инженеров-программистов для более глубокого понимания потребностей пользователей и повышения качества создаваемых продуктов. Опираясь на более чем 20-летний опыт работы в таких компаниях, как Microsoft, Facebook и Stripe, автор предлагает стратегии, помогающие интегрировать технические навыки с ориентированностью на пользователя, что способствует карьерному росту и созданию более эффективных решений. (Полностью поддерживаю автора)

Fundamentals of DevOps and Software Delivery - руководство по DevOps и доставке программного обеспечения, охватывающее инструменты и методы, необходимые для развертывания и поддержки приложений в продакшене. (Автор, Евгений Брикман, написал очень крутую книга по Terraform Up an Running.)

Data Contracts - Книга Чада Сандерсона и Марка Фримана посвящена концепции дата-контрактов — соглашений между поставщиками и потребителями данных, направленных на обеспечение их качества и надежности. Авторы подробно рассматривают, как внедрение дата-контрактов помогает документировать ожидания к данным, устанавливать ответственность за их качество и автоматически применять эти требования в процессе CI/CD, что особенно важно при работе с данными, поступающими из внешних источников. (Ребята уже мусолят тему дата контрактов ни один год, и вот наконец-то книга почти готова)


В любом случае браться за все подряд это не очень эффективно, должен быть план и roam map, и нужно придерживаться его.
30.03.2025, 21:34
t.me/rockyourdata/5131
Обзор новых книг от O’Reilly, который на мой взгляд выглядят интересными и полезными:


ML and Generative AI in the Data Lakehouse - ​практическое руководство по созданию решений с использованием генеративного искусственного интеллекта (ИИ) и архитектуры data lakehouse. (Отличный материал для ознакомления с AI фичами databricks и примерами решений)

Data Governance with Unity Catalog on Databricks - предоставляет практическое руководство по использованию Databricks Unity Catalog для эффективного управления данными и соблюдения нормативных требований. (Unity Catalog специфичен и отличается от других каталогов, поэтому поможет быстрей понять особенности и best practices)

Building Medallion Architectures - Книга подробно рассматривает принципы организации слоев «бронза», «серебро» и «золото» для улучшения качества данных и повышения эффективности аналитики. (Обычно это тему можно понять на простом примере с 3мя папочками Bronze, Silver, Gold. Ребята там сильно напряглись, чтобы книгу написать)

Building Data Integration Solutions - практическое руководство по объединению и организации разрозненных источников информации в единую, согласованную систему. (Чисто полистать сойдет)

AWS Certified Data Engineer Associate Study Guide - охватывает ключевые темы, включая эффективное управление конвейерами данных, выбор подходящих хранилищ, проектирование моделей данных, обеспечение качества данных и внедрение надежных протоколов безопасности и управления данными в AWS. (Самый лучший способ изучать AWS и вкатываться в дата инженера на западе)

Advanced Snowflake - предоставляет подробное руководство по использованию передовых инструментов платформы Snowflake, таких как Snowpark и Native App Framework, для оптимизации обработки данных, разработки приложений и развертывания моделей машинного обучения. (Если вы опытный в Snowflake, врят ли узнаете что-то новое, а если только начинаете, то самое то)

Apache Hudi: The Definitive Guide - руководство по использованию Apache Hudi для создания транзакционных гарантий при работе с быстро изменяющимися данными. ( я бы лучше про Iceberg изучал бы)

Engineering Leadership: The Hard Parts - практическое руководство для инженерных лидеров, помогающее справляться с вызовами управления в условиях неопределенности и быстрых изменений.


Microsoft Power BI Data Analyst Associate Study Guide - ​книга для подготовки к экзамену PL-300 и получения сертификации Microsoft Certified: Power BI Data Analyst Associate. (😞)

Fundamentals of Microsoft Fabric - служит подробным руководством по освоению платформы Microsoft Fabric. (Возможно наконец-то мы сможем понять что такое Фабрик и зачем он нужен)

Demystifying The Coding Interview - руководство для подготовки к собеседованиям по программированию. Она охватывает ключевые темы, такие как структуры данных, алгоритмы и методы решения задач, помогая читателям развить критическое мышление и навыки решения проблем. (Если вы вдруг хотите сами решать задачки на собесе, то книга вам поможет, хотя не ожидаю увидеть что-то новое в этой области)
30.03.2025, 21:34
t.me/rockyourdata/5129
30.03.2025, 21:34
t.me/rockyourdata/5130
97
2.9 k
30.03.2025, 21:34
t.me/rockyourdata/5120
97
2.9 k
30.03.2025, 21:34
t.me/rockyourdata/5124
97
2.9 k
30.03.2025, 21:34
t.me/rockyourdata/5122
97
2.9 k
30.03.2025, 21:34
t.me/rockyourdata/5123
98
2.8 k
30.03.2025, 21:34
t.me/rockyourdata/5125
97
3.1 k
30.03.2025, 21:34
t.me/rockyourdata/5126
97
2.9 k
30.03.2025, 21:34
t.me/rockyourdata/5121
97
3.0 k
30.03.2025, 21:34
t.me/rockyourdata/5127
97
3.0 k
30.03.2025, 21:34
t.me/rockyourdata/5128
7
97
2.5 k
Обзор новых книг от O’Reilly, которые на мой взгляд выглядят интересными и полезными:


ML and Generative AI in the Data Lakehouse - ​практическое руководство по созданию решений с использованием генеративного искусственного интеллекта (ИИ) и архитектуры data lakehouse. (Отличный материал для ознакомления с AI фичами databricks и примерами решений)

Data Governance with Unity Catalog on Databricks - предоставляет практическое руководство по использованию Databricks Unity Catalog для эффективного управления данными и соблюдения нормативных требований. (Unity Catalog специфичен и отличается от других каталогов, поэтому поможет быстрей понять особенности и best practices)

Building Medallion Architectures - Книга подробно рассматривает принципы организации слоев «бронза», «серебро» и «золото» для улучшения качества данных и повышения эффективности аналитики. (Обычно это тему можно понять на простом примере с 3мя папочками Bronze, Silver, Gold. Ребята там сильно напряглись, чтобы книгу написать)

Building Data Integration Solutions - практическое руководство по объединению и организации разрозненных источников информации в единую, согласованную систему. (Чисто полистать сойдет)

AWS Certified Data Engineer Associate Study Guide - охватывает ключевые темы, включая эффективное управление конвейерами данных, выбор подходящих хранилищ, проектирование моделей данных, обеспечение качества данных и внедрение надежных протоколов безопасности и управления данными в AWS. (Самый лучший способ изучать AWS и вкатываться в дата инженера на западе)

Advanced Snowflake - предоставляет подробное руководство по использованию передовых инструментов платформы Snowflake, таких как Snowpark и Native App Framework, для оптимизации обработки данных, разработки приложений и развертывания моделей машинного обучения. (Если вы опытный в Snowflake, врят ли узнаете что-то новое, а если только начинаете, то самое то)

Apache Hudi: The Definitive Guide - руководство по использованию Apache Hudi для создания транзакционных гарантий при работе с быстро изменяющимися данными. ( я бы лучше про Iceberg изучал бы)

Engineering Leadership: The Hard Parts - практическое руководство для инженерных лидеров, помогающее справляться с вызовами управления в условиях неопределенности и быстрых изменений.


Microsoft Power BI Data Analyst Associate Study Guide - ​книга для подготовки к экзамену PL-300 и получения сертификации Microsoft Certified: Power BI Data Analyst Associate. (😞)

Fundamentals of Microsoft Fabric - служит подробным руководством по освоению платформы Microsoft Fabric. (Возможно наконец-то мы сможем понять что такое Фабрик и зачем он нужен)

Demystifying The Coding Interview - руководство для подготовки к собеседованиям по программированию. Она охватывает ключевые темы, такие как структуры данных, алгоритмы и методы решения задач, помогая читателям развить критическое мышление и навыки решения проблем. (Если вы вдруг хотите сами решать задачки на собесе, то книга вам поможет, хотя не ожидаю увидеть что-то новое в этой области)
30.03.2025, 21:34
t.me/rockyourdata/5119
3
46
2.8 k
В последней статье от Pragmatic Engineer - AI Engineering in the real world автор на пример нескольких стартапов собрал примеры использования AI для продукта/сервиса и их технологический стек.

1. Incident.io — это стартап, который создает инструменты для эффективного управления инцидентами и их расследования. Продукты компании помогают компаниям быстро реагировать на технические сбои, обеспечивая эффективную коммуникацию и анализ ситуации.

Продукт:
- AI Note Taker — инструмент для записи заметок и реального времени, который автоматически генерирует резюме инцидентов, а также выделяет ключевые решения и действия для участников.
- Incident Investigator — ИИ-агент, который анализирует коды, логи и старые инциденты для нахождения коренной причины текущих проблем.

Технологии:
- PostgreSQL и pgvector — для хранения и поиска векторных представлений данных.
- ChatGPT 4o и Sonnet 3.7 (модели от Anthropic) — для обработки запросов и анализа инцидентов.
- GCP Kubernetes — для оркестрации вычислительных ресурсов.
- Go (на бэкенде) и React + Typescript (на фронтенде).


2. Sentry — это популярная платформа для мониторинга приложений, которая помогает разработчикам отслеживать ошибки в коде и устранять их. Компания предоставляет мощные инструменты для автоматического обнаружения и исправления ошибок.

Продукт:
- Autofix — позволяет быстро перейти от ошибки в коде к её исправлению, интегрируя данные Sentry с GitHub для автоматического создания запросов на исправления.
- Issue Grouping — инструмент, который снижает количество уведомлений об ошибках и устраняет «шум» с помощью усовершенствованного поиска ближайших соседей.

Технологии:
- PostgreSQL и pgvector — для хранения и поиска векторных данных.
- Clickhouse — для обработки аналитики в реальном времени.
- Kubernetes — для оркестрации вычислительных мощностей.
- Python и PyTorch — для инференса моделей машинного обучения.


3. Wordsmith (Legal AI) разрабатывает инструменты с использованием ИИ, специально ориентированные на юридические команды. Продукты компании помогают автоматизировать рутинные задачи, такие как анализ документов и контрактов.

Продукт:
- AI Contract Review — инструмент для автоматического анализа контрактов, выявления проблемных мест и создания аннотированных документов.
- Documents Workspace — платформа для анализа и создания документов, включая автоматическое составление отчетов и рекомендаций.

Технологии:
- Pinecone — для хранения векторных представлений данных.
- LangChain и LangSmith — для интеграции LLM в рабочие процессы.
- LlamaIndex — для оркестрации данных с LLM.
- Многооблачные провайдеры: AWS, Azure и GCP.


4. Augment Code создает инструменты для разработчиков с целью улучшения их работы с большими кодовыми базами с использованием ИИ. Компания предлагает AI-ассистента для программирования, который помогает ускорить процесс разработки.

Продукт:
- AI Coding Assistant — расширение для IDE (VS Code, JetBrains, Vim) и Slack, которое помогает разработчикам ускорить процесс написания кода.
- Fine-tuning Models — сервис для настройки ИИ-моделей для специфических задач в программировании.

Технологии:
- Google Cloud — для хостинга инфраструктуры.
- A3 Mega 600GPU/75 node cluster — для тренировки и инференса моделей.
- NVIDIA GPU и CUDA — для обработки данных на графических процессорах.
- Python и PyTorch — для создания библиотек тренировки и инференса.


5. Elsevier (RAG platform) — один из крупнейших мировых издателей научных и медицинских материалов. Компания создает платформы, которые помогают медицинским специалистам и исследователям эффективно находить и использовать научные данные.

Продукт:
- RAG Platform — централизованная платформа для обработки научных данных и создания приложений для медицинских профессионалов. Включает в себя решения для создания интеллектуальных систем обучения и поддержки клинических решений.
30.03.2025, 05:43
t.me/rockyourdata/5117
8
39
3.1 k
Технологии:
- AWS Bedrock и Azure OpenAI — для хостинга и запуска моделей LLM.
- LangChain — для интеграции LLM в инфраструктуру.
- Snowflake — для хранения данных и анализа.
- Apache Airflow — для выполнения пайплайнов обработки данных.
- AWS Fargate и AWS OpenSearch — для хранения векторных данных и поиска.


6. Simply Business — это страховая компания, предоставляющая небольшим и средним предприятиям удобные онлайн-инструменты для покупки страховых полисов. Компания разрабатывает чат-ботов для автоматизации обслуживания клиентов.

Продукт:
- Chatbot — чат-бот, который отвечает на вопросы клиентов о страховании, предоставляя только утвержденные ответы в соответствии с нормативами отрасли.

Технологии:
- AWS Bedrock — для хостинга модели.
- Anthropic Sonnet 3.5 — для обработки запросов.
- Ruby on Rails — для разработки и развертывания приложения.



7. Data Solutions International (DSI) разрабатывает HR-технологии, которые помогают компаниям с процессами оценки и вовлеченности сотрудников. Их продукты используют ИИ для анализа и суммирования отзывов сотрудников.

Продукт:
- Summarization Feature — инструмент для автоматического суммирования комментариев сотрудников, оставленных в процессе оценки и обратной связи, включая классификацию по темам и создание облаков слов.

Технологии:
- AWS Bedrock — для работы с моделями.
- PostgreSQL — для хранения векторных представлений данных.

То есть если посмотреть на технологический стек, мы видим набор традиционных решений с интеграцией Gen AI сервиса
30.03.2025, 05:43
t.me/rockyourdata/5118
77
3.5 k
28.03.2025, 22:29
t.me/rockyourdata/5116
75
78
3.3 k
Ну что все думаете, что скоро вас заменят? А вот Нюх думают по другому:


Мне 50 лет, я пишу продакшн-код уже около 30 лет, преподаю программирование и являюсь признанным мировым экспертом в этой области, особенно в сфере облачных технологий. НУЛЕВОЙ ШАНС, что в ближайшие 5 лет эта технология сможет заменить экспертов-программистов. Это всё равно что сказать, будто циркулярная пила может заменить плотника. Логическая ошибка.

Это всё большая афера. Силиконовая долина делает вид, что что-то создаёт, а на самом деле продаёт финансовый продукт, а не настоящий. А потом уходит, оставляя за собой ядерные отходы, закопанные в общественном саду.


А вот, что говорит Степан:



1. "Петля гибели" (Doom Loop)
Компании массово увольняют сотрудников, чтобы внедрить ИИ, но затем вынуждены нанимать новых людей, чтобы управлять этим ИИ — потому что он часто ошибается. Это замкнутый круг:
→ Увольняем людей
→ Ставим ИИ
→ ИИ ошибается
→ Нанимаем людей, чтобы исправлять ошибки ИИ
→ Добавляем больше ИИ, чтобы исправлять старый ИИ
→ Повторяем

2. "Змея, поедающая свой хвост"
Метафора для того, что система начинает "переваривать саму себя" — создаются новые проблемы, которые приходится решать теми же средствами, что их и вызвали.

3. Реальность против обещаний
- ИИ делает ошибки (часто "галлюцинирует", особенно в логике и математике).
- Тесты и бенчмарки — подогнаны, демонстрации — искусственные.
- Эффективность оказалась ниже обещанной, а издержки выше.
- Возникает скрытый труд: теперь нужны "ревьюеры ИИ", "промт-инженеры", и "QA-человеки в цикле".

4. Кто выигрывает
- Компании, которые не поддались хайпу и внедряют ИИ обдуманно, как дополнение, а не замену людей.
- Принцип "Augmentation over automation" — не заменять человека, а усиливать его возможности.

5. Что будет, если не изменить курс
- Падает качество продуктов
- Растут юридические и репутационные риски
- Скрытые затраты на управление ИИ
- ИИ, который исправляет ошибки другого ИИ
- Иллюзия прогресса вместо реального роста

6. P.S.
Подозрение: новые блестящие релизы, вроде GPT-4o с улучшенной генерацией изображений — это просто способ отвлечь внимание от провалов и проблем в реальных ИИ-внедрениях.

В общем идеи у всех классные, сейчас их пампят деньгами и продают, и возможно такой подход вредит конечной цели.

В любом случае цель остается неизменной, нужно развиваться и учиться, пробовать новое (AI) и смотреть как это повышает вашу эффективность и эффективность компании, которая вам платит, ну или которую вы создаете.

Я вот еще не обновил свое резюме, чтобы написать там про AI use cases, использование AI инструментов для продуктивности, а пора.

Growth mindset - наше все!
28.03.2025, 22:29
t.me/rockyourdata/5115
5
10
3.5 k
Готов увидеть будущее искусственного интеллекта? 🧠

GoCloud — масштабная конференция про облака и AI. Здесь ML-инженеры, дата сайентисты, разработчики и архитекторы обмениваются лучшими практиками и знаниями.

В программе:
▫ презентация платформы для работы с AI&ML — от идеи до результата
▫ анонс новых сервисов для работы с GenAI
▫ реальный кейс трансформации клиентского сервиса с помощью AI
▫ анонс сервиса для простого и быстрого запуска ML-моделей в облаке

30+ докладов, нетворкинг с экспертами и live-демо сервисов ждут тебя 10 апреля.
Регистрация по ссылке 👈
28.03.2025, 09:59
t.me/rockyourdata/5114
Repostar
50
22
3.5 k
27.03.2025, 21:56
t.me/rockyourdata/5113
65
3.7 k
27.03.2025, 20:39
t.me/rockyourdata/5108
66
3.7 k
27.03.2025, 20:39
t.me/rockyourdata/5107
66
3.7 k
27.03.2025, 20:39
t.me/rockyourdata/5111
79
65
3.6 k
Если вы еще не попробовали промпт “Convert Studio Ghibli anime”, то самое время открыть ChatGPT модель 4o. Детализация очень крутая, как пример наши фотки.

Модель умеет совмещать несколько фоток в одну (пример с котом, машиной и детьми)

Утро прошло не зря:)
27.03.2025, 20:39
t.me/rockyourdata/5105
65
3.7 k
27.03.2025, 20:39
t.me/rockyourdata/5110
66
3.7 k
27.03.2025, 20:39
t.me/rockyourdata/5106
65
3.7 k
27.03.2025, 20:39
t.me/rockyourdata/5109
65
3.8 k
27.03.2025, 20:39
t.me/rockyourdata/5112
6
33
3.9 k
Поговорим про инженерные платформы и AI?

23 апреля Т-Банк приглашает на Platform Engineering Night. Приходите послушать, как AI помогает автоматизировать процессы, оптимизировать ресурсы и повысить продуктивность платформенных команд.

Что будет в программе:
— Доклады экспертов о применении AI в инженерных платформах.
— Зоны демонстрации AI-решений в платформах.
— Нетворкинг с инженерами и лидерами отрасли.

Встреча пройдет 23 апреля в 19:00 в T-Space по адресу Москва, Грузинский Вал, 7. Доклады можно послушать в онлайне.

Это бесплатно, успейте зарегистрироваться.
27.03.2025, 09:59
t.me/rockyourdata/5104
53
61
3.1 k
Продолжаю серию постов про ожидания от высшего руководства для управления командой аналитики в Северной Америке.

Я уже рассказывал, что общаюсь про позицию VP Analytics & DE в американскую компания, в компании всего 700 сотрудников и их gross revenue 150mln в год. Компания используют данные и аналитику как часть своего портфеля продуктов. (А кто сейчас не использует?😃)

Я уже общался с CTO, и следующий этап был с их подрядчиком. С ними работают небольшое агентство из Сиэтла, которое фокусирует на AI (А кто сейчас не фокусируется на AI?😃). Они попросили основателя провести собеседование, и мне очень понравился его framework.

Сам мужик оказался очень крутым по общению, а потом я посмотрел на его профиль:
2000-2011 - Director BigData&Analytics, Microsoft
2011-2016 - основатель консалтинг компании, которую купил Ernst&Young
2016-2019 - Partner, Analytics & AI, EY
2019-2022 - General Manager, Product Management & AI, Amazon

И сейчас он строит новую компанию, чтобы тоже ее продать, но уже с AI.

У нас с ним оказалось много общего, вместе работали в Amazon и Microsoft, вместе создавали консалтинг компанию. Есть конечно и различия, но в детали я не буду углубляться😉

Я использовал Limitless, чтобы записать наш разговор и потом попросил ChatGPT его структурировать и перевести на русский, получилось достойно:

1. Technical Leadership (Техническое лидерство):

Вопрос: Расскажи о случае, когда ты проектировал data platform с нуля до конца. Какие ключевые факторы ты учитывал при принятии решений?

Твой ответ: Ты рассказал об опыте миграции классического data lake из Amazon в современную Lakehouse архитектуру. В Microsoft (Xbox) перед тобой стоял выбор между нативными решениями Azure (Synapse, HDInsight) и Databricks. Ты выбрал Databricks из-за возможностей Delta Lake (например, соблюдение GDPR и поддержка ACID транзакций). Ты провёл детальный POC и убедительно показал его преимущества руководству, избежав принудительного перехода на Synapse. Благодаря этому удалось обеспечить elastic scalability и сократить задержку аналитики с 24 часов до 1 часа. Ты повысил стабильность пайплайнов, внедрив подход Infrastructure as Code, и эффективно справился с нагрузкой в пиковые периоды запуска игр, используя тестовые данные (mock data).

2. Data Governance (Управление данными):

Вопрос: Какова твоя философия в области data governance и какие конкретные шаги ты предпринял для её реализации?

Твой ответ: Твоя философия заключается в том, чтобы связывать инициативы по data governance с бизнес-целями компании. Ты начинаешь с простых и практичных решений (документация, удобный поиск данных, создание data catalog) и оцениваешь зрелость компании через опросы пользователей. Ты ставишь во главу угла коммуникацию, доверие к данным (trustworthiness) и удобство их использования. Также ты упомянул, что использовал специализированные порталы и решения для **data observability (например, Monte Carlo) для отслеживания качества и документации данных.

3. Analytics & Data Science Enablement (Поддержка аналитики и Data Science):

Вопрос: Как ты поддерживаешь команды аналитиков и data scientists, чтобы их потребности не перегружали ресурсы твоей команды по data engineering?

Твой ответ:
Ты всегда чётко расставляешь приоритеты и прозрачно коммуницируешь о возможных конфликтующих задачах. Ты внедряешь общие frameworks (DBT, Snowflake, Airflow), избегаешь подходов «чёрного ящика» (black-box pipelines) и обучаешь команды правильным практикам. В недавнем проекте ты улучшил производительность пайплайнов ML-команды, разбив их на простые и прозрачные модели (DBT models), сократив время выполнения с нескольких часов до нескольких минут. Ты предложил стандартизировать подходы (frameworks), чтобы инженеры могли легче помогать и диагностировать проблемы пайплайнов аналитиков.

Отдельно ты упомянул контроль ресурсов (например, стоимости в Snowflake) путём установки ограничений на запросы (timeouts, размеры warehouses), еженедельного обзора расходов и предварительного обучения новых пользователей, чтобы избежать перерасходов.
26.03.2025, 21:45
t.me/rockyourdata/5102
53
41
3.4 k
4. Working with Business Leaders (Работа с бизнес-лидерами):

Вопрос: Как ты общаешься с нетехническими руководителями и топ-менеджментом?

Твой ответ: Ты подчёркиваешь важность согласования целей твоей команды с конкретными измеримыми бизнес-целями компании (снижение затрат, рост доходов, повышение операционной эффективности). Ты избегаешь технических терминов, предпочитая простые и понятные показатели, через которые ясно показываешь руководству ценность и результаты работы твоей команды.

5. Managing Diverse Technical Talent (Работа с разными уровнями сотрудников):

Вопрос: Как ты управляешь командой, в которой есть люди с разными уровнями опыта и знаний, особенно когда кто-то давно работает и не хочет менять технологии?

Твой ответ: Ты активно поддерживаешь технические знания, постоянно следишь за новинками в отрасли и лично вовлекаешься в технические детали проектов. Ты стараешься понять личную мотивацию каждого сотрудника, терпеливо помогаешь людям осваивать современные технологии (например, переход от SQL Server к Snowflake) и стараешься показать это как возможность развития, а не вынужденное изменение.
26.03.2025, 21:45
t.me/rockyourdata/5103
9
30
3.9 k
Не так давно был пост про Trisigma — платформу для автоматизации A/B-тестирования и аналитики от команды Авито. Сейчас будет полезная инфо для тех, кто хочет понять как она работает.

Команда платформы собрала подробную статью о функционале, интерфейсе и возможностях платформы, изучить можно тут.

То, что удивило: самостоятельная разработка аналога Trisigma обойдется средней компании в несколько десятков миллионов рублей и в 2 года работы!🤯
26.03.2025, 09:59
t.me/rockyourdata/5101
45
354
4.1 k
Список сайтов для поиска удаленной работы:

1. SimplyHired (simplyhired.com)
2. Jobspresso (jobspresso.co)
3. Stack Overflow Jobs (stackoverflow.com)
4. Outsourcely (outsourcely.com)
5. Toptal (toptal.com)
6. Skip The Drive (skipthechive.com)
7. NoDesk (nodesk.co)
8. RemoteHabits (remotehabits.com)
9. Remotive (remotive.com)
10. Remote4Me (remote4me.com)
11. Pangian (pangian.com)
12. Remotees (remotees.com)
13. Europe Remotely (europeremotely.com)
14. FlexJobs (flexjobs.com)
15. Remote.co (remote.co)
16. We Work Remotely (weworkremotely.com)
17. RemoteOK (remoteok.com)
18. AngelList (angel.co)
19. Linkedin (linkedin.com)
20. Outsourcely (outsourcely.com)
21. Freelancer (freelancer.com)
22. Working Nomads (workingnomads.com)
23. Virtual Vocations (virtualvocations.com)
24. Wellfound (https://wellfound.com)
25.Remote freelance (remotefreelance.com)
26. Jobspresso (jobspresso.co)
27. SimplyHired (simplyhired.com)
28. Welcome to the jungle (https://app.welcometothejungle.com/)

А какие у вас любимые и полезные?
25.03.2025, 21:57
t.me/rockyourdata/5100
21
68
4.1 k
Очень интересный выпуск подкаста «Деньги любят техно» о Data Science и AI с Константином Воронцовым — стоит смотреть всем, кто хочет развиваться в сфере AI.

Константин Воронцов — доктор физико-математических наук, профессор РАН, МГУ, заведующий лабораторией «Машинное обучение и семантический анализ» Института Искусственного интеллекта МГУ. Под его руководством множество молодых специалистов построили свою карьеру в науке, часть из них выбрали развитие в компаниях и работают в самых известных бигтехах. Как раз о выборе направления карьерного пути, важности фундаментального образования и необходимости широкого кругозора рассказал в подкасте Константин Вячеславович. Ну и конечно, об ИИ — понимании его сути, его роли, его будущего. Ведущий подкаста Денис Суржко задал очень правильные, глубокие вопросы, приправил разговор китайскими мудростями и угостил гостя чаем.

Интересно смотреть, но есть и аудиоверсия для тех, кто любит слушать.
25.03.2025, 18:42
t.me/rockyourdata/5099
38
65
4.1 k
Недавно наткнулся на классный материал про Growth Engineering — направление, которое активно развивается в крупных компаниях вроде Meta, Airbnb и Dropbox.

Кто такой Growth Engineer🚀? По сути — инженер, который пишет код не просто ради фич, а для прямого увеличения прибыли компании. Его основная задача — запускать эксперименты и проверять гипотезы: например, как изменения интерфейса, уведомлений или даже формата подписки могут повлиять на конверсию и удержание пользователей.

Growth Engineers мыслят не категориями «как это построить идеально», а «как быстро проверить идею и понять, принесет ли это деньги». Они не боятся двигаться быстро, иногда даже обходя долгосрочные решения и тесты, лишь бы понять, есть ли смысл вкладывать ресурсы в проект.

Направление появилось в Facebook в 2007 году благодаря Чамату Палихапитии (сейчас ведет подкаст All-In про экономику, tech, стартапы), который предложил формировать отдельную команду для быстрого роста бизнеса через эксперименты.

Звучит здорово, и, честно говоря, в чём-то это даже ближе к реальному бизнесу и стартап-культуре, чем стандартная продуктовая разработка с её долгими циклами.

А вы сталкивались с Growth Engineering в работе?
21.03.2025, 19:41
t.me/rockyourdata/5098
28
187
4.2 k
Очень рекомендуют видео - Stanford CS229 I Machine Learning I Building Large Language Models (LLMs)

00:10 Building Large Language Models overview
02:21 Focus on data evaluation and systems in industry over architecture
06:25 Auto regressive language models predict the next word in a sentence.
08:26 Tokenizing text is crucial for language models
12:38 Training a large language model involves using a large corpus of text.
14:49 Tokenization process considerations
18:40 Tokenization improvement in GPT 4 for code understanding
20:31 Perplexity measures model hesitation between tokens
24:18 Comparing outputs and model prompting
26:15 Evaluation of language models can yield different results
30:15 Challenges in training large language models
32:06 Challenges in building large language models
35:57 Collecting real-world data is crucial for large language models
37:53 Challenges in building large language models
41:38 Scaling laws predict performance improvement with more data and larger models
43:33 Relationship between data, parameters, and compute
47:21 Importance of scaling laws in model performance
49:12 Quality of data matters more than architecture and losses in scaling laws
52:54 Inference for large language models is very expensive
54:54 Training large language models is costly
59:12 Post training aligns language models for AI assistant use
1:01:05 Supervised fine-tuning for large language models
1:04:50 Leveraging large language models for data generation and synthesis
1:06:49 Balancing data generation and human input for effective learning
1:10:23 Limitations of human abilities in generating large language models
1:12:12 Training language models to maximize human preference instead of cloning human behaviors.
1:16:06 Training reward model using softmax logits for human preferences.
1:18:02 Modeling optimization and challenges in large language models (LLMs)
1:21:49 Reinforcement learning models and potential benefits
1:23:44 Challenges with using humans for data annotation
1:27:21 LLMs are cost-effective and have better agreement with humans than humans themselves
1:29:12 Perplexity is not calibrated for large language models
1:33:00 Variance in performance of GPT-4 based on prompt specificity
1:34:51 Pre-training data plays a vital role in model initialization
1:38:32 Utilize GPUs efficiently with matrix multiplication
1:40:21 Utilizing 16 bits for faster training in deep learning
1:44:08 Building Large Language Models from scratch
21.03.2025, 00:32
t.me/rockyourdata/5097
147
20
3.9 k
В 7 утра я обычно работаю в living room пока все спят, а потом уже иду в офис смотреть на прохожих в окно👆

Чем меньше вещей вокруг тем продуктивней работа.
19.03.2025, 09:15
t.me/rockyourdata/5095
20
3.8 k
19.03.2025, 09:15
t.me/rockyourdata/5096
131
20
4.8 k
Недавно проходил собес на VP Analytics&Data Engineering в Американскую большую компанию, вот это тема, никто вас не спрашивает про leetcode, алгоритмы и другие вещи. Вы сразу общаетесь с С-level, спрашиваете их про планы компании, про impact решения, размер команды и тп, в общем то, что надо🤑
18.03.2025, 07:35
t.me/rockyourdata/5094
Repostar
30
63
3.9 k
🔎 За какими дэшами следят в Amazon?

С Димой (@rockyourdata) написали статью про Amazon Weekly Business Review. Идея в том, чтобы смотреть несколько основных метрик сразу на одном листе понедельно, помесячно, а также MTD, QTD, YTD (период от начала месяца/квартала/года до текущей даты).

Дима проработал в Амазоне больше 5 лет и для меня эта схема с WBR была новая. Очень интересно посмотреть, как крупные компании следят за метриками. Ну а я подробно расписала, как собрать такой мини-wbr дэшборд в Tableau (прям шаг за шагом супер детально и доступно для скачивания).
17.03.2025, 18:10
t.me/rockyourdata/5093
26
55
4.1 k
И есть еще одна статья - «Техно-фашизм приходит в Америку» из The New Yorker

1. Слияние технологий и государственной власти: В статье обсуждается объединение лидеров Кремниевой долины, таких как Илон Маск, с правительством США, что напоминает исторические примеры техно-фашизма, где технократы занимают влиятельные позиции в государстве.​

2. Инициатива DOGE: Илон Маск возглавляет программу «Digital Operations Governance and Efficiency» (DOGE), направленную на использование искусственного интеллекта для оптимизации государственных функций, что приводит к значительным сокращениям и деперсонализации бюрократической структуры.​

3. Исторические параллели: Автор проводит аналогии с предыдущими случаями, когда американские корпорации сотрудничали с государством, например, «Фордизм» Генри Форда и сотрудничество IBM с нацистской Германией, подчеркивая текущую тенденцию глубокого проникновения лидеров Кремниевой долины в государственные процессы.

4. Идеология техно-акселерационизма: Отмечается, что такие фигуры, как Илон Маск, стремятся быстро разрушить существующие структуры для создания технократического общества, что вызывает опасения относительно возможного ослабления демократических норм и усиления авторитарных тенденций.​

Интересно как сложится, будет ли у Америки новый CEO-Monarch вместо призидента, или люди себе надумали.

Наверно сейчас хорошее время покупать акции Теслы, пока они 50% down, даже если это был пузырь, то он еще отрастет за следующие несколько лет?
16.03.2025, 20:42
t.me/rockyourdata/5092
34
97
3.7 k
Во время выборов президента Америки можно было заметить как американские миллиардеры поддерживает Трампа. Сейчас команда Трампа наводит шороху везде, рынки теряют деньги, люди жгут и портят Теслы (в комментах скину фотку, что вчера видел у салона тесла), все бузят на Маска и множество других событий 🍿

Попалась интересная статья, которая смотри на все события с другого ракурса - «Демократия закончилась: наступление корпоративной монархии»

Основные тезисы:

1. Три основные группы с разными, но опасными целями:
- Project 2025: Реализация ультраправой, авторитарной политики. Включает запрет абортов, преследование ЛГБТ и транс-людей, отрицание климатических изменений и постоянную «культурную войну».
- Христианские реконструкционисты: Стремятся превратить США в христианскую теократию, переписав Конституцию на основе Библии.
- Технократы во главе с Маском, Тилем и Джей Ди Вэнсом: Продвигают идею корпоративной монархии, где демократия будет заменена корпоративным управлением под руководством «CEO-монарха».

2. Связь Питера Тиля, Илона Маска и JD Вэнса:
- Маск и Тиль вместе основали PayPal, откуда выросла мощная группа «PayPal Mafia», оказавшая огромное влияние на Кремниевую долину.
- Тиль, миллиардер и влиятельный технократ, профинансировал карьеру JD Вэнса, сделав его сначала сенатором, затем кандидатом в вице-президенты США.

3. Кёртис Ярвин и «Тёмное Просвещение» (Dark Enlightenment):
- Ярвин выступает за ликвидацию демократии и создание авторитарного государства в виде корпорации. Демократические процедуры считаются неэффективными и ненужными.
- Он предлагает упростить управление страной через корпоративный подход, заявляя, что Америке нужно избавиться от «диктаторофобии».

4. Идеология технократической корпоративной монархии:
- Миллиардеры Кремниевой долины считают демократию помехой и стремятся захватить власть, сократив роль государства и переведя управление в руки частных корпораций.
- Стратегия, названная Ярвиным «RAGE» (Retire All Government Employees), предусматривает массовые увольнения госслужащих, парализующие правительство, после чего корпорации займут их место.

5. Роль Илона Маска и JD Вэнса в текущих событиях:
- Маск уже активно реализует эту стратегию через инициативы вроде DOGE, что выглядит хаотично, но на деле тщательно спланировано.
- JD Вэнс внезапно стал ключевой политической фигурой благодаря усилиям Тиля и Ярвина, чтобы облегчить продвижение технократической повестки на высоком политическом уровне.

6. Роль Трампа:
- Дональд Трамп описан как пешка в этой игре, стареющий лидер, чьё хаотичное президентство является удобным фоном для реализации реальной техно-фашистской повестки.

Автор статьи делает вывод, что видимый хаос в американской политике — это осознанная и целенаправленная попытка группы технократов, таких как Маск, Тиль и Вэнс, создать корпоративную монархию на месте современной демократии США.
16.03.2025, 20:42
t.me/rockyourdata/5091
84
66
4.5 k
Сейчас с помощью AI хороший инженер может стать в пять раз продуктивнее, даже просто экономя время на написании YAML-файлов, создании прототипов, поиске ошибок, быстром погружении в незнакомые стеки и изучении новых языков программирования.

Я и сам вижу в этом множество преимуществ. Но есть нюанс. У меня и других опытных инженеров за плечами годы практики: мы самостоятельно изучали исходный код, искали примеры на StackOverflow, проходили десятки уроков и туториалов, набивали шишки, погружаясь в основы. И именно благодаря этому багажу сейчас мы можем эффективно использовать AI и становиться продуктивнее.

А что делать новичкам? Если они будут погружаться в основы таким же долгим и трудоёмким способом, то на короткой дистанции они окажутся непродуктивными и не будут оправдывать ожиданий работодателей.

Поэтому начинающие специалисты всё чаще обращаются к ChatGPT и аналогам, быстро находя готовые решения, но не понимая при этом их сути. В долгосрочной перспективе это лишает их возможности стать действительно хорошими инженерами. То есть, опытные инженеры станут еще лучше и востребованной, а новичкам будет еще сложной пробиться.

Получается парадокс: с одной стороны, нам говорят (и даже продают идею), что AI заменит нас, а с другой — именно AI нередко лишает нас возможности самостоятельно думать, разбираться и глубоко понимать предметную область.

Какие у вас мысли поводу молодежи и “войти в айти”?
16.03.2025, 00:43
t.me/rockyourdata/5090
56
72
4.2 k
Ребята не принебрегайтей GitHub! Пусть у вас будет такой же зелененький календарь в профайле, как в этой душевой!

PS Git сложен: легко всё про@бать, и нереально понять как исправить. Документация Git - это финиш: чтобы найти решение, тебе заранее надо знать название фишки, которая вернет всё на место.

Поэтому вам в помощь - @баный Git!!!
15.03.2025, 01:42
t.me/rockyourdata/5089
68
59
4.4 k
Такая интересная история приключилась, сейчас расскажу:)

В LinkedIn мне написала Ксения, и скинула ссылка на недавний подкаст с Евгением, который в 40 лет выучился на дата инженера.

В небольшом подкасте он рассказал про свой путь и как учился, как искал первую работу https://careerselfmade.mave.digital/ep-7

Базу Женя подчерпнул на datalearn, а дальше уже стал самостоятельно углубляться, как результат полная переквалификация без платных курсов. Но как вы понимаете нужен фокус и мотивации.

Так классно слышать про полезные скилы, например отдельно нарабатываем прохождения собеседований, чтобы просто ходить по собеседования и валить их, чтобы понимать куда расти и где пробелы. Или про технических или бизнес инженеров. В общем очень познавательно и полезно.

С Евгением мы последний раз общались где-то год назад, он как раз поделился своими успехами. Уверен у него теперь еще круче! Валютная удаленка 💯

Ссылка на канал Ксюши https://t.me/HRqueenBCN
14.03.2025, 04:26
t.me/rockyourdata/5088
Такая интересная история приключилась, сейчас расскажу:)
14.03.2025, 04:09
t.me/rockyourdata/5087
45
38
4.2 k
🏆 Авито — лучший работодатель для аналитиков!

По данным нового исследования NEWHR, Авито занял 1 место среди самых привлекательных компаний для аналитиков!

📊 В исследовании приняли участие 1293 аналитика разных уровней — от Junior-специалистов до руководителей.
Более 35% респондентов выбрали Авито как лучшего работодателя. Помимо этого, 69% специалистов отметили рост зарплат в 2024 году, а 46% стали более лояльны к текущему работодателю.

🚀 В Авито все решения принимаются с опорой на данные, поэтому аналитики есть в каждой продуктовой и бизнес-команде. Чтобы пользователи продолжали выбирать Авито, наши аналитики:

➡️ каждый день собирают 8 млрд новых событий и тестируют гипотезы,

➡️ создают системы метрик, аналитические фреймворки и математические модели,

➡️ проводят статистические исследования,

➡️ изучают поведение пользователей и находят причины в его изменениях,

➡️ настраивают отчетность,

➡️ выступают на конференциях, проводят митапы, пишут статьи на Хабре и многое другое.

С результатами исследования NEWHR можно ознакомиться по ссылке.
13.03.2025, 09:59
t.me/rockyourdata/5086
12.03.2025, 07:15
t.me/rockyourdata/5085
82
8
4.3 k
Оказывается, Макс тоже вышел на новую работу, и они вместе с Юрой отписались в дискорде, с чем я их и поздравляю!

Это полностью их заслуга. Хорошую работу с хорошей зарплатой быстро не найти, нужно пройти через сотни откликов, множество собеседований и тестовых заданий, отказов, которые выявляют пробелы в знаниях, которые нужно закрыть.

В результате прокачки, получается не просто закрыть пробелы и выйти на работу, но и начать контрибутить (приносить пользу) с 1го дня работы и сразу понятно куда дальше расти.

У ребят 100% валютная удаленка🍾
12.03.2025, 07:15
t.me/rockyourdata/5084
64
1
4.3 k
Все работает как часы! Если конечно хватает мотивации довести дело до конца, Юрий молодец дожал и нашел работу🚀
12.03.2025, 04:23
t.me/rockyourdata/5083
58
294
4.2 k
Практически каждый проект в инжиниринге данных начинается с package manager (пакетный менеджер), как правило для Python.

С одной стороны у всех цель одна, а с другой стороны “кто в лес, кто по дрова”.

Мне попались 3 хорошие статьи от Dagster на эту тему (про сам Dagster там нет), в которых хорошо рассказывают как это работает и как сделать удобно и красиво.

Python Packages: a Primer for Data People (part 1 of 2)
Python Packages: a Primer for Data People (part 2 of 2)
Best Practices in Structuring Python Projects

Вообще там 11 частей, в каждом посте будут ссылки на все части, например есть и другие полезные:
High-performance Python for Data Engineering
Write-Audit-Publish in data pipelines
Breaking Packages in Python
CI/CD and Data Pipeline Automation (with Git)
Factory Patterns in Python
Type Hinting in Python
Environment Variables in Python

Если вы еще на “вы” со всеми этими менеджерами, зависимостями или не очень понимаете, что творится у вас на работе в репозитории, то будет полезно ознакомиться.
9.03.2025, 23:01
t.me/rockyourdata/5082
video.mp4
9.03.2025, 01:35
t.me/rockyourdata/5081
Repostar
54
55
4.1 k
Антропик утверждает, что в 2026 появятся модели, которые

— превосходят Нобелевских лауреатов в большинстве областей
— умеют пользоваться всеми человеческими интерфейсами
— могут работать и думать неделями
— могут взаимодействовать с реальными миром через роботов.

Самое смешное, что в мире есть еще люди, которые считают что это не гарантированно и «авось пронесет».

Я не вижу ни одного сценария (технического, политического, бизнесового), в котором этого бы не произошло в течении 2 лет. Nothing stops this train.

Другой вопрос: как подготовиться и что делать дальше, особенно с такими штуками как координация людей (экономика, финансы, право, политика)? Есть любопытные идеи.
7.03.2025, 20:22
t.me/rockyourdata/5079
Os resultados da pesquisa são limitados a 100 mensagens.
Esses recursos estão disponíveis apenas para usuários premium.
Você precisa recarregar o saldo da sua conta para usá-los.
Filtro
Tipo de mensagem
Cronologia de mensagens semelhante:
Data, mais novo primeiro
Mensagens semelhantes não encontradas
Mensagens
Encontre avatares semelhantes
Canais 0
Alta
Título
Assinantes
Nenhum resultado corresponde aos seus critérios de pesquisa