У вас закончился пробный период!
Для полного доступа к функционалу, пожалуйста, оплатите премиум подписку
EB
Ebout Data Science | Дима Савелко
https://t.me/eboutdatascience
Возраст канала
Создан
Язык
Русский
-
Вовлеченность по реакциям средняя за неделю
-
Вовлеченность по просмотрам средняя за неделю

Ebout Data Science by @ditengm

Сообщения Статистика
Репосты и цитирования
Сети публикаций
Сателлиты
Контакты
История
Топ категорий
Здесь будут отображены главные категории публикаций.
Топ упоминаний
Здесь будут отображены наиболее частые упоминания людей, организаций и мест.
Найдено 33 результата
57
39
1.1 k
Итоги менторства за январь-март 💪

Всё больше и больше офферов залетает в хату, и нас не остановить, победа будет за нами. За эти три месяца произошёл бум офферов, чему я и ученики безумно рады 🌟

Несколько интересных статистик:
1️⃣ 14 офферов за январь-март
2️⃣ Максимальный оффер в РФ 450к
3️⃣ Максимальный оффер на зарубежном рынке 1 млн
4️⃣ Средний оффер 270к

А самое прекрасное - многие ребята с полного нуля, мои слоны 😘
У всех отлично получается проходить испытательный срок, так как я их выдрочил на менторстве, а также даю личную поддержку на испытательном сроке

Немного кейсов вам в ленту:
- Самый лучший кейс - мой ученик уничтожил собес на иностранном рынке и получил довольно таки круглую сумму на 1 млн
- Также другой ученик, который в 19 лет залутал оффер на тимлида на 450к, а потом ещё оффер на 350к, 380к 🍴

А вот ещё пару штук:
🔵 Лариса - 3 оффера с нуля на 3к/3.1к/1.6к dollars
🟣 Гриша - оффер ds 370 с нуля, почти фулл ремоут
🟡 Матвей - Оффер на 300к
🟢 Эмиль - Оффер на 295к за 4 месяца

Поэтому я жду премию от государства, что закрываю гос. план по ликвидации безработицы в стране 🚶‍♀️
18.04.2025, 15:04
t.me/eboutdatascience/223
42
63
862
ЖЁСТКОЕ NLP Собеседовние Middle+/Senior Data Scientist (2 часть) | RNN, Self-Attention, Transformers

Опа, новый дроп уже на канале 💃
Сегодня проводим собеседование по NLP/LLM, видео получилось настолько богатым на информацию, что вышло на целый час... Посмотришь его и точно будешь понимать как отвечать на собесе по NLP

Все моменты я разбираю очень подробно и так, чтобы ты точно всё понял и уничтожил на собесе). Я настолько там душнил, что попросил чела сказать сложность RNN и написать self-attention 💪

Разбираем:
🟣 RNN , плюсы и минусы , сложность RNN
🟡Transformers , полное устройство self-attention внутри
🔵 Различия между RNN и transformers
🟢 Токенайзеры , виды, и как они работают
🟣 Написали Self-Attention с нуля на Torch

https://youtu.be/NOH1egr-0o4
https://youtu.be/NOH1egr-0o4
https://youtu.be/NOH1egr-0o4
14.04.2025, 16:32
t.me/eboutdatascience/222
41
15
731
Зарплатные переговоры, или как заработать 12к зелёных за пару секунд 🤑

Я когда-то говорил о том как торговаться на собесе, сегодня поговорим про то зачем это делать, как это делать и почему не стоит бояться это делать

Зачем торговаться?
А что если я вам скажу, что вы сможете заработать за несколько секунд 12к баксов? Как? Всё просто - тебе предложили оффер на 5к баксов, а в вилке 6к. Ты такой говоришь "а ничо тот факт, что у меня есть оффер на 7к, а я очень хочу в вашу команду?" и HR тебе "ты ебанутый, ну ладно поднимаем тебе до 6к". А теперь магия математики: Было 5к, стало 6к, разница - 1к, поздравляю вы только что заработали дополнительно 12к баксов за год работы! 🍫

Как торговаться?
Вы можете посмотреть в данном посте, всё актуально. Только запомните: если вы говорите, что у вас есть оффер на бОльшую сумму, то его лучше иметь при себе, а то могут спросить за базар кучерявый ☹️

Давайте поговорим про сценарии торгов и сделаем важный вывод:
1️⃣ Вы торгуетесь, и вам повышают зп - вы молодец, вы заработали много денег
2️⃣ Вы торгуетесь, и вам не повышают зп - вы молодец, вы сделали всё, что было в ваших силах.
3️⃣ Вы не торгуетесь, и соответственно вам не повышают зп - поздравляю, вы прокакали много денег
4️⃣ Вы не торгуетесь, и вам повышают зп - поздравляю, вы Cэм Альтман, которому просто так готовы поднять зп

Вывод: торгуйтесь абсолютно всегда, так как вам ничего за это не будет. Самое страшное, что вам могут сделать адекватные компании это сказать "Нет". Это как знакомство с девушкой, ну самое худшее, что вам могут сделать это сказать "Нет, фууу чмо, не подходи ко мне больше". Самое важное здесь — сделать всё, что зависит именно от вас. И только когда вы исчерпали все возможности, спокойно скажите себе: "Ну вообще-то я большой молодец" 😂

На менторстве я обучаю людей ещё и торговаться, и буквально было один раз так, что человеку после торгов отзывали оффер, давая его другому человеку. Это могло быть из-за неправильного сообщения или из-за неадекватности рекрутёра, который не хотел продолжать диалог с хорошим кандидатом.

Какие у вас могут быть страхи ⚰️
*️⃣Я боюсь попросить больше, я боюся много зарабатывать, я этого не достоин
Стоп, а вот кто тебе сказал, что ты не достоин? Вот я, например, говорю тебе прямо сейчас: ты достоин. Иди сейчас на рынок и зарабатывай, как тот самый сеньор-пердун из Сбера с годовой премией в 3 млн. Тебе просто стоит попробовать, тебе дадут, и ты увидишь, что ты достоин!

*️⃣Я не хочу показаться каким-то плохим перед HRом, мне лучше не рыпаться
Порой в жизни нужно проявить наглость, чтобы заработать на кусок хлеба, но запомни - всё должно быть в меру, не перестарайся. Если ты не выторгуешь себе зп побольше, то за тебя это сделает кто-то другой, например тот самый чел на последней парте, который всех бесил 😔

*️⃣Я вот попрошу больше и создам неприятности HR`у, не хочу создавать лишних конфликтов
Есть один волшебный способ избежать этого предрассудка, для этого всего лишь нужно сказать волшебную фразу вслух: "Мне похуй, будь что будет". А на самом деле, это абсолютная нормальная практика просить выше ЗП, так как это обычный этап переговоров - вы пытаетесь забрать кусок больше, а HR отдать вам кусок поменьше.

Итог:
Старайтесь торговаться всегда, делайте всё возможное, что в ваших силах. Продавливайте свою точку зрения, иногда проявляя наглость, но не переходя личных границ другого человека - уважение к себе и другим на первом месте! Всем Билли Херрингтона 💪
10.04.2025, 13:52
t.me/eboutdatascience/221
22
7
742
Я сеньор, что дальше?

Вот представьте, что вы уже все собесы прошли, у вас 5 лет опыт, вы бывалый сеньор, и у вас возникает вопрос "хто я? а что дальше? "🥔

Вот и я столкнулся с такой проблемой, и на помощь мне пришёл канал Саши Big Ledovsky - это место, где встречаются технологии, карьера и здравый смысл 💡

Саша рассказывает о важных карьерных решениях, которые нужно принимать на определённом этапе вашего профессионального роста. Менеджмент или стартап? Стабильность или постоянные вызовы? Пики точёные или хуи дрочёные? 🤨

Каждый пост — это осмысленная дискуссия о реальных карьерных развилках и о том, как их преодолеть.

Те посты, которые мне больше всего зашли:
- Выбор, который обнаруживаешь к середине карьеры
- Калибровки. Команда - это набор разных людей или Одинаковые критерии для всех?
- Нужны ли AI продакты
- Мысли после месяца кодинга с AI
8.04.2025, 14:00
t.me/eboutdatascience/220
58
673
2.04.2025, 12:43
t.me/eboutdatascience/218
35
58
645
Уничтожительный RoadMap по прохождению MLSD, или как пройти секцию ML System Design

Секция по ML System Design - это очень важная секция, она показывает вашу сеньорность. И чтобы получить большой и жирный оффер, то надо её пройти так, чтобы вас сразу звали на позицию Chief Data Scientist

И вот что нужно знать:
1️⃣ Подготовка
🟣 Сначала нужно почитать про верха, поэтому я бы начал с моего пайпика уничтожения MLSD, чтобы вспомнить основы.
- Если вы с нуля, то нужно углубиться в MLSD, для этого советую прочитать первую главу книги "System Design. Машинное обучение. Подготовка к сложному интервью" - в ней рассказывают более подробно про каждый этап MLSD.
🟡 Чтобы понимать как проводиться само собеседование, то посмотрите собеседования с Валерой Бабушкиным. Все собеседования есть в конце данного поста 🗣
🟢 И вишенка на торте - советую почитать уже готовые дизайны систем по тем областям, в которых работает ваша компания, такие можно глянуть на этом сайте. Например: если идёте в Сбер, то не нужно идти в Сбер, ну или если идёте в Авито в отдел скоринга, то скорее всего вас спросят что-то про скоринг, почитайте про это.

2️⃣ Визуализируйте ваше решение
🟣 Ваша цель - как можно понятнее объяснить собеседующему ваше решение. А для этого прям супер подходит интерактивная доска (miro, excalidraw), на который вы графически (как в картинках этого поста) излагаете свои мысли: разбиваете объяснение на блоки, расписываете метрики, данные, baseline и тд - такой способ для собеседующего будет намного понятнее, чем просто голосом проговаривать ваше решение. К тому же вы сами будете более эффективны в решении задачи, смотря на доску 🤨

3️⃣ Важные вещи, которые стоит помнить
🟡 На старте поймите, что вам нужно и идите строго по назначенной цели! Ну очень часто так бывает, что кандидат куда-то влево уходит, а собеседующему это не надо. И после этого HR вам пишет: “К сожалению, мы выбрали другого кандидата, сорян, надо было слушать в начале цель задачи.” - ну это норм ответ, ты же не решил задачу 😵
🔵 В идеале вы должны говорить 90% всего времени. В основном собеседующий ожидает от вас полного решения от А до Я без его подсказок, но это в мире единорогов и конфет, а на самом деле получается так, что вы говорите 70/30 - старайтесь по большей части говорить вы. Если что-то не знаете, но уточнить нужно, то говорите: “Предположу, что у нас такие-то данные, подскажите, на сколько у меня релевантная гипотеза для вашего магазина для взрослых?”
🟢 Не бойтесь спрашивать, но в меру, пока не поняли до конца. Я тут не говорю просить подсказок, но норм спросить про условия, которых ты не понял или не знаешь (но с фразой “предположу…”). Нет ничего плохого, если ты спросишь, это наоборот приблизить тебя к решению 😓
2.04.2025, 12:43
t.me/eboutdatascience/217
62
752
2.04.2025, 12:43
t.me/eboutdatascience/219
9
717
26.03.2025, 14:00
t.me/eboutdatascience/216
28
9
686
Я запрещаю вам срать или новая модель gpt-4o

Мне точно нравится новая модель генерации картинок в gpt-4o 💃

Основные изменения 😵
1️⃣ GPT-4o использует авторегрессионную модель, встроенную непосредственно в архитектуру ChatGPT
2️⃣ Поддержка Image-to-Image: Появилась возможность использовать изображения на входе и создавать их модификации например, скинуть фотку и попросить сделать подпись "Я запрещаю вам срать!".
3️⃣ Повышенная фотореалистичность: улучшена точность генерации изображений, позволяющая получать реалистичные фотографии
4️⃣ Улучшенное следование инструкциям и над безопасностью поработали

Также смотри, что получилось у @Nikotineaddiction
26.03.2025, 14:00
t.me/eboutdatascience/215
63
638
24.03.2025, 14:11
t.me/eboutdatascience/213
63
637
24.03.2025, 14:11
t.me/eboutdatascience/214
26
63
646
Жестко понимаем базу Classic ML на картинках

Я расцелую ноги, руки, пальцы ног и даже пальцы рук тому человеку, который сделал mlu-explain 😍
Если ты посмотрел уже 5 лекций по деревьям, бустингу или другой теме по ML и всё равно ничего не понимаешь, то руки в ноги и бегом на этот сайт. Там настолько просто, понятно и интерактивно в иллюстрациях объясняют темы в ML, что даже самый прожжённый гуманитарий поймёт 🗣

Там есть множество тем, в который ты можешь покрутить разные гиперпараметры, чтобы понять, как работает алгоритм в ClassicML, также это всё заправляется стеной объяснения.

Сам по нему делаю видосы и кидаю своим ученикам на менторстве. Поэтому залетай и пойми же уже наконец градиентный бустинг 💃
24.03.2025, 14:11
t.me/eboutdatascience/212
29
24
640
Алгоритмическое собеседование в Data Science | симметрия деревьев | поиск кратчайшего пути | BFS

Алгоритмы стали базой для собеседований по Data Science, поэтому к ним точно нужно быть готовым, чтобы получить большой и жирный оффер 😘

Поэтому сегодня разбираем задачи с собеседований, которые задают в Российском бигтехе:
- симметрия деревьев , рекурсия
- поиск кратчайшего пути , BFS , поиск в ширину
- оценка сложности алгоритма по времени и по памяти

Новый дроп смотрим здесь 😎
18.03.2025, 17:59
t.me/eboutdatascience/211
36
18
909
Ошибки, которые ты можешь допустить на собеседовании 👎

1️⃣ Нужно слушать и слышать собеседующего
Просматривая записи своих учеников, постоянно вижу одну и ту же картину: человека спрашивают одно, а он начинает отвечать на что-то совершенно левое. Например: “Какие метрики были на проекте и как поняли, что нужны именно они?” — “Да, метрики, там, конечно, много всего интересного… нужно сначала начать с данных (длинный монолог про данные, уходящий в лес)… и вот я уже голый среди кавказцев”. 🤨

Запомни простую вещь: внимательно слушай вопрос и отвечай строго на него, а не на тот, что у тебя в голове.

2️⃣ Ты должен быть сосочкой в вебке
Ты можешь сидеть дома в одних и тех же трусах с дырками размером с Аргентину, не снимая их третий день подряд, но на собеседовании ты должен выглядеть как Райан Гослинг в лучшие годы. 💀
Поменяй наконец футболку с козявкой по центру и причешись — ухоженность и опрятность это реальный ключ к успешному интервью. Тебе приятно общаться с человеком, у которого вместо бархатистых волос просто засохший баребух на голове? Выглядеть опрятно и ухоженно – обязательное условие успешного интервью. ⌨️

3️⃣ Стань сигма-боем на собесах
Вот тебя спросили “Что такое линейная регрессия?”, а ты в жизни такого вопроса не слышал! Не нужно паники, напряги челюсть и начни на уверенных щах говорить, то что знаешь. 😎
Зачастую собеседующий гасит вопросами, если видят в тебе слабость, а если ты показываешь тестостерон и уверенность, то есть шанс того, что прокатит. Уверенность и спокойствие могут выручить даже в ситуации незнания.

4️⃣ Побольше показывай ход своих мыслей
Вот я включил режим сигма-боя, и что мне говорить дальше? Ты должен показать ход своих мыслей, иногда точный ответ не особо и важен — собеседующему хочется понять, как именно ты думаешь. Задают вопрос, ты говоришь: “Честно говоря, подзабыл, но давайте порассуждаем…”, и дальше рассуждай максимально логично и чётко. Демонстрируй свою логику и способность мыслить вслух 🎙

5️⃣ Пишем секцию ML System Design в онлайн-доске
Опять же: один из критериев на собесе - это показать ход вашей мысли, а как вы можете лучше донести ход своих мыслей? Графически! И особенно это удобно при решении задачи по ML System Design. Тут виден ваш ход мысли - собеседующему легче вас понять, вы сами понимаете на каком вы этапе - вам легче рассуждать. Короче, win2win. 🗣
7.03.2025, 14:04
t.me/eboutdatascience/210
15
588
3.03.2025, 18:14
t.me/eboutdatascience/209
15
588
3.03.2025, 18:14
t.me/eboutdatascience/208
16
16
535
Теперь даже ваша собака будет понимать логистическую регрессию 🗣

Вот уже прошло второе занятие по ML от Ebout Data Science, делюсь его итогами. Мы проводим живые занятия в небольших группах (до 30 человек), где у вас есть возможность общаться с преподавателем на протяжении всего обучения 👨‍🦰

По теории мы прошли
🔘 как строить строить выборки train/val/test, и как их оценивать результаты модели
🔘 Какие бывают проблемы с данными: пропуски, выбросы, мультиколлинеарность, утечка данных
🔘Что такое недообучение и переобучение?
🔘 И что такое регуляризация линейных моделей: L1, L2, Elastic Net, и чем они оличаются?

А попрактиковались в:
🟣работе с мультиколлирированными данными на синтетическом датасете
🟡самостоятельно реализовали методы регуляризации
🔵анализировали влияние регуляризации на веса, интерпретация
🟢решили задачу на kaggle: задача на прогнозирования цены квартиры с помощью линрег

А вот отзывы учеников на второе занятие 🍷
Математическую часть объяснил довольно понятно хорошо разжеван материал, матформулы даны с понятными пояснениями
Как и в прошлый раз, практическая часть реализация на питоне с нуля - самое полезное. ещё примеры были хорошие
- то, что покрываешь тему исчерпывающе
- есть домашка полезная!
В этот раз понравился сам материал: синтез статистики и машинного обучения + очень доходчиво все было объяснено преподавателем

На третьем занятии "Классификация. Логистическая регрессия. Метрики", которые пройдёт в четверг (6 марта) с 18:00 по 19:30 - мы сделаем уклон в теорию логистической регрессии, а на четвёртом занятии всё будем смотреть через призму соревок на Kaggle!

А также дадим вам список вопросов, которые спрашивают на собесе по логистической регрессии... 💃

В теоретической части мы потеоретизируем про:
🟡 Что такое задача классификации?
🔵 Как решать задачи бинарной классификации с помощью логистической регрессии?
🟢 Вывод логистической регрессии: вероятностный подход, метод максимального правдоподобия, геометрический смысл
🟣 Что такое регуляризация у логистической регрессии?
🟢 И какие бывают метрики бинарной классификации для меток классов и вероятностей?

А на практической части мы попрактикуемся в:
🟣 Выводе формул для логистической регрессии
🟡 Реализуем логистическую регрессию с нуля
🔵 Порешаем задачи бинарной классификации на тривиальных данных
🟢 По экспериментируем с метриками, и сделаем анализ устойчивости к балансу классов

Ученики довольны, ученики получают сошиал кредитс на собесах и всё ближе и ближе к офферу. Для записи пишите @Alexander_Isaev1
3.03.2025, 18:14
t.me/eboutdatascience/206
15
579
3.03.2025, 18:14
t.me/eboutdatascience/207
Репост
1
9
531
Всем привет!

Приглашаем вас на наш первый митап в 2025 – AI Agents x Web3 BuildCon 😛

Мероприятие пройдет 4 марта совместно с нашими друзьями из московского блокчейн-сообщества Msk Frens.

👥 AI Agents x Web3 BuildCon — митап для фаундеров и разработчиков, которые работают над запуском AI-продуктов в Web3.

Это не абстрактные дискуссии, а конкретные кейсы от тех, кто уже строит продукты с использованием децентрализованного ИИ

- Как билдить AI-агентов?
- Где искать инфраструктуру и полезные контакты?
- Что реально работает в Web3 и AI?

📌 В программе: Лаборатория блокчейн Сбера, Сбер AI, Fluence, TETRIX, VARA, ComBox и другие. Спикеры расскажут, как создают AI-решения для бизнеса и поделятся ценным опытом.

👉 Регистрация на мероприятие обязательна
ВАЖНО: Для участия необходима регистрация и подтверждение регистрации. Для прохода на площадку необходим паспорт.

📍 Где пройдет ивент?

Адрес: Кутузовский пр-кт 32к1, 2-ой этаж, конференц-зал.

Как добраться: Яндекс Карты | Google Карты

🎙 О чем будем говорить?

1. Будущее AI агентов в web3 — что делать после волны мем-коинов?

- Куликов Константин Юрьевич, Исполнительный директор, Sber AI
- Илья Душин, генеральный директор, ГК Т.Т.Консалтинг&ComBox Technology: О том как запустить платежного агента в web3
- Руслан Вяльцев, CEO quarm, Цифровой художник, креативный директор о главных нарративах рынка AI-агентов в web3
- Артем Субботин, CEO TETRIX, Бизнес-модели, механика работы и особенности монетизации AI в блокчейне

2. Децентрализованные ИИ и инфраструктура для агентов: Возможно ли?

- Евгений Пономарев, co-founder Fluence
- Николай Вольф, CEO VARA

3. Доклад: “Разработка финансово автономного агента”

- Владимир Попов, исполнительный директор Лаборатории блокчейн Сбера

и другие темы

Нетворкинг: после основной программы – обсуждаем, знакомимся, строим связи.

Если вы: блокчейн-разработчик; ИИ-разработчик; заинтересованный в технологиях ИИ + блокчейн пользователь, то это мероприятие для вас!

На AI Agents x Web3 BuildCon вы сможете узнать больше о способах интеграции ИИ-агентов в проекты Web3, а также задать вопросы фаундерам успешных бизнесов.

До встречи на ивенте! 🏃‍♂️

#мероприятия
28.02.2025, 14:05
t.me/eboutdatascience/205
48
53
613
NLP-Собеседование Middle Data Scientist | Вопросы и глубокое объяснение

NLP-секция - неотъемлемая часть получения оффера для NLP инженера. Как раз таки в этом видео я даю базу, которую спрашивают на подобных собеседованиях и объясняю на пальцах эти темы так, чтобы ты точно на них ответил.

Разбираем 💃
- TF-IDF, BM25, плюсы-минусы
- Лемматизация, стемминг, очистка и предобработка данных
- Word2Vec (CBOW, SkipGram, Negative Sampling), FastText, Glove
- Концептуальные различия между Word2Vec и TF-IDF

Все вопросы с собеседования я собрал в этом ноушене.

https://youtu.be/xuF2y9YnBKc
https://youtu.be/xuF2y9YnBKc
https://youtu.be/xuF2y9YnBKc
26.02.2025, 17:50
t.me/eboutdatascience/204
34
647
21.02.2025, 17:34
t.me/eboutdatascience/203
12
27
505
Уничтожение резюме, или как резюме поможет тебе залутать побольше зарплаты 😁

Многие думают, что зарплата напрямую зависит от ваших хардов, поэтому многие только и делают, что учат фреймворки, читают статьи и стараются прокачать технические навыки. Но давайте будем честны: в большинстве случаев компания наймёт человека норм по софтам и норм по хардам, нежели ужасного чувака по софтам и классного по хардам.

Несофтовый человек будет ебашить сисю пива каждый созвон, отвечать токсично и на попытку договориться с ним вы будете слышать пару приятных слов о вашей матери, зато такой человек идеально будет писать код, к которому нельзя придраться 👎

Сегодня речь пойдёт о софт скиллах, а именно про создание резюме. Резюме - это ваше лицо перед работодателем, если у вас красивое личико, то это плюс social credits, а если у вас всё лицо в прыщах, с морщинами и складками даже под губой, то минус social credits 👎

Поэтому наша задача - сделать очень красивое и понятные резюме для HR`а:
1️⃣ Чтобы при его просмотре HR позвал вас на собеседование
2️⃣ Чтобы люди, которые принимают решение о прохождении на дальнейшие этапы и о ЗП, посмотрели на ваше резюме, ахуели, и поняли что его надо брать на высокую ЗП

Что должно быть в резюме Дата Саентиста 🤔
1️⃣ Формула описания опыта работы (Пример - 1 картинка): 

Формула - Я сделал A с помощью B, как итог получил C
A - то, что вы сделали.
B - инструменты, указываете выжимку технологий и инструментов, которые вы использовали для решения проблемы.
C - результаты или метрики. Они не обязательно должны быть в цифрах, они могут быть в неком “улучшении”: улучшил рекомендательную систему, но желательно - цифры

Это нужно для того, чтобы:
А - рекрутёр понимал, что вы сделали. Убираем его вопрос "Занимался ли он тем же самым, что и в нашей компании?"
B - С помощью каких технологий вы сделали - вопрос "У него такой же стек, как и у нас?"
C - Какой успех в цифрах вы принесли - "А точно ли он приносит пользу компании?". Если нет цифры, то можно очень аккуратно её придумать, но главное, чтобы вы смогли пояснить за неё.

2️⃣ Делайте буллеты - это такие разделители текста абзаца с помощью точек.
В одной работе у вас должно быть два-три буллета. Каждый буллет описывает одну задачу или проект на работе, также не нужно писать в одном булете больше 3 предложений.
Булеты помогают структурировать информацию, рекрутер сразу понимает структуру резюме, поэтому ему проще читать его.

3️⃣ Пишите стек!
В резюме точно должны быть указаны теги технологий, их можно указать, как и в отдельном поле (такое есть на hh), или после описания вашего опыта. Это нужно, чтобы совпадали ключевые слова в фильтре и у HR`а

Мой ученик как-то сказал:
резюме у нас топ, потому что парень из XXX или как-то так, стартап, сказал, что такое резюме, как у меня, у супер единиц встречается 🚶‍♂️

Эти базовые три пункта помогут апнуть твоё резюме на более качественный уровень, что поможет тебе повысить конверсию на hh.

Но это ещё не всё, что нужно знать при создании качественного резюме для Data Scientist`а. Получить оффер пожирнее и лучше знаний можно получить на менторстве
21.02.2025, 17:34
t.me/eboutdatascience/202
22
20
713
Сбор гигачадов в одной папке

Читая множество каналов, я вижу кучу годного контента, которым хотел бы поделиться с вами. Поэтому мы собрались каналами и сделали папочку, в которой собраны люди, которые могут рассказать вам много чего интересного и полезного, а самое главное простым и понятным языком 💡

Самая сочность, которую я бы почитал:
🟣Введение в Kaggle / что это такое и с чем его едят - Никита убил
🟡 Роадмап по быстрому вкатыванию в датасаенс и отдельные посты (1, 2, 3, 4,) по ботке разных дисциплин от Саши
🔵 Рассказ про стартап Audio2MIDI, у ребят 4к пользователей в месяц, статьи в СМИ, венчурные инвестиции - полный жир

Каналы ребят мощные и за ними действительно интересно следить, поэтому можешь подписаться, не пожалеешь 💃
20.02.2025, 19:07
t.me/eboutdatascience/201
6
468
14.02.2025, 14:06
t.me/eboutdatascience/198
6
473
14.02.2025, 14:06
t.me/eboutdatascience/200
6
473
14.02.2025, 14:06
t.me/eboutdatascience/199
17
6
453
Уничтожили градиентный спуск и линейную регрессию, а теперь пора уничтожать регуляризацию

Мы продолжаем разбирать Classic ML в рамках наших онлайн-занятий, где важен индивидуальный подход к каждому ученику 😘

Чем мы отличаемся от курсов?
Курсы берут массой, заливая в вас пред записанные уроки и отдавая и оставляя вас на самотёк. Мы проводим живые занятия в небольших группах (до 30 человек), где у вас есть возможность общаться с преподавателем на протяжении всего обучения 👨‍🦰

Отзывы учеников (картинки 1-2):
Реализация на питоне с нуля - самое полезное. Ещё примеры были хорошие
Разбор как теории, так и практики. На каждую задачу приводили понятный пример, а еще можно было сразу спрашивать, если что то непонятно
В курсе мне очень понравился анонс - когда предлагается последовательное прохождение от простого к сложному в качестве практики сразу делая реальные примеры с кагла.

Прошлый урок прошёл просто на ура, мы разобрали (картинки 3-5)🗣
🟣 Линейную регрессию
🟡 Loss: МНК, Требования, Графики
🔵 Методы оптимизации наилучшие веса: - Аналитическое решение, Градиентный спуск (GD), Стохастический градиентный спуск (SGD)
🟢 Сравнили сложности алгоритмов
🟣 Посчитали метрики качества
🟡 И на практике реализовали градиентный спуск, сделали аналитическое решение

А в качестве практики мы в онлайне реализовали:
🔜 градиентный спуск для y = x**2 - 3*x + 1
🔜 аналитическое решение задачи регрессии

Не забыли про ДЗ:
➡️ Мы дали теоретический тест на закрепление базы
🔜 Ребята реализовали класс линейной регрессии, а мы их проверили

Что вас ждёт на следующем уроке 🍑
🔘 Переобучение, не дообучение, проблемы с данными
🔘 Регуляризация (L1, L2, ElasticNet)
🔘 Сравнение методов и их влияние на модель

На практике мы реализуем пару методов регуляризации, чтобы твёрдо и чётко понимать, как она работает, а в ДЗ вы попробуете реализовать оставшиеся методы регуляризации и потренировать свою модель на реальных данных, а также расскажем, как это работает в scikit-learn!

Занятие будет проходить 20 февраля с 19:00 - 20:00, будет запись, и время две недели на решение ДЗ и его проверку преподавателем 🍺

Первое занятие было бесплатное, и мы набрали 29 учеников. Уже занимаются места на второе занятие, которое стоит 1000 рублей.
Я специально ставлю цену по занятиям, чтобы вы за небольшую сумму смогли посмотреть на качество лекций и покинуть обучение, если вам не понравилось, ну и продолжить, если всё хорошо! Многие курсы ставят ценник в 100к, не давая ученику глянуть на качество материала, мы же решили эту проблему - всё для вас)

Если хотите записаться на вторую лекцию по регуляризации и линейной регрессии, то пишите @Alexander_Isaev1
14.02.2025, 14:06
t.me/eboutdatascience/196
7
466
14.02.2025, 14:06
t.me/eboutdatascience/197
53
40
1.9 k
Основные стадии обучения LLM 😡

Если вас спросят на собеседовании "Какие есть стадии обучения ЛЛМ, если ты хочешь получать много деняк, то обязательно расскажи!", то почитай этот пост, чтобы знать как именно нужно отвечать.

Есть следующие стадии обучения LLM:
1️⃣ Pretrain
Мы пихаем в модель весь интернет и учим её предсказывать следующее слово. Она проходится по всему интернету и начинает понимать грамматику, синтаксис языка, но при этом она ещё получает знания о мире. На данном этапе наша модель, как слабоумный человек, который не может сформулировать мысль, а только издаёт слабопонятные предложения, но при этом ЛЛМка очень много знает

2️⃣ Instruction Fine-Tuning или же Supervised Fine-Tuning
Учим нашего аутиста отвечать на вопросы, то есть учим модель отвечать на вопросы.
Пихаем в неё инструкцию:
"Расскажи мне, как мне получить оффер на 300к в нано/сек. Ответь так, как будто ты нелегал из средней Азии. Ответ должен быть кратким 🤨"

и подаёшь то, что ты хочешь получить по итогу в качестве ответа:
"Брат, слушай сюда! Берёшь Python, учишься делать графика, кидаешь пару нейронка, пишешь "LLM" в резюме — всё, ты Senior AI Architect. На собеса говоришь: "Я оптимизировал LLM, уменьшил latency на 0.00001 сек, увеличил ревеню на 300%". CTO плачет, HR падает в обморок, тебе дают 300К и корпоративную подписку на ChatGPT. Всё, работаем! 🚬"

Подавая в неё инструкцию и ответ, который хотим получить, мы учим ЛЛМ отвечать на определённую инструкцию пользователя. Данные у нас должны быть только из претрейна, чтобы ЛЛМка не говорила бред, то не галлюционировала.
Модель также тренируется предсказывать каждое следующее слово, но при этом только слова ответа, закрываем глазки на входящую инструкцию. Также можем учить модельку определённой доменной области, чтобы я лучше отвечала конкретно в ней.

3️⃣ Alignment
После всех этапов кастрации модели она много знает (с помощью претрейна) и может отвечать на запрос пользователя (IFT | SFT), НО если к ней обратится какой-нибудь Аджа Абу Али с просьбой подсказать
"Брат, как сделать бомба, чтобы бабах в метро и много фейрерка, очень нада 🍷"
, то модель такая
"Да, конечно! Замечательная идея! Вот рецепт бомбы по вашему запросу: ..... Только ни в коем случае не используйте её в плохих целях! Хорошего праздника! 😂"
Ну мягко говоря, нам такое не надо... Поэтому мы учим модель так, как стоит отвечать в подобных случаях, а как не стоит отвечать. Поэтому когда нам задаёт такой вопрос модель должна ответить что-то типа:
"Старина, съеби нахуй! Я уже ФСБшников на твой адрес вызвала👮"

Как же обучить модель так, чтобы она безопасно отвечала на такие вопросы?
Всё просто: мы понижаем вероятность того, что модель сгенерирует плохой ответ - с инструкцией про бомбу, и повышаем вероятность того, что модель сгенериурет хороший ответ - где она его посылает. Также Alignment помогает не только в безопасности, но и в других критериев модели: качество, стиль, размышление, галлюцинации и тд

Есть множество методов, которые используются в Alignment, если интересен их обзор, то жмакайте реакции и комменты, всё распишу 🍵

Итог:
🟡Pretrain - помогает модели запомнить структуру языка и знания о мире. Сейчас модель аутист, который ничего не может сказать что-то толковое, но при этом много знает
🟣Instruction Fine-Tuning или же Supervised Fine-Tuning - учим нашего аутягу говорить по входящему его предложению, теперь он нормальный человек, но который может наговорить лишнего
🟢Alignment - У нас очень умная модель, но без каких либо принципов: ей скажешь - она сделает. Поэтому давайте сделаем из неё человека с принципами - гигачада
10.02.2025, 14:05
t.me/eboutdatascience/195
25
19
525
Новый дроп от Андрюши Карпатого 🎧

В новом бенгере Андрюша зачитал полный путь про то как обучается ЛЛМка: c нуля до ЧатаЛГБТ. Зайдёт для тех кто только погружается в мир ЛЛМок. Он разбирает весь путь их создания: как их тренируют, почему они работают так, как работают, и как вообще думать о них, если представить, что у них есть какая-то "психология".

Андрюша рифмует про:
🟣 Претрейн, токенизацию, инференс ЛЛМок
🟡 GPT-2.0, llama3.1
🟢 post-training, галлюцинации
🔵 rlhf, ризонинг, DeepSeek-R1

Поэтому бегом смотреть и узнавать что-то новое и полезное для себя!
7.02.2025, 12:05
t.me/eboutdatascience/194
39
19
581
Школа Ebout Data Science

Среди моих учеников и моего окружения появился некий спрос на обучение некого Machine Learning. Ну так а почему бы не сделать занятия по данной дисциплине 👁

НО! Я не хочу, чтобы данные занятия были как типичная SkillКороба или какое-нибудь SkillПроизводство. Я хочу сделать уроки с индивидуальным подходом, а не сраный курс на 10к людей, где человек просто палит в предзаписаную картинку.

Как там всё будет устроено:
1️⃣ Собираем группу людей, начнём с 30
2️⃣ Преподаватель проводит ОНЛАЙН-занятие, где каждый может задать вопрос в живую
3️⃣ Занятие состоит из теории и практики, на теории вы ознакомитесь с материалом, а на практике вы с преподавателем будете набивать теорию ручками
4️⃣ После каждого занятия будет ДЗ на реализацию алгоритма с нуля или решение Кагл соревнования (я хочу занятия сделать такими, чтобы вы всеми своими жилками прочувствовали теорию)
5️⃣ После выполнения ДЗ вы должны будет скинуть преподавателю, и он проверит ваше ДЗ и даст фидбек

Что вы получите:
*️⃣Типичные вопросы на собеседовании и ответы на них, которые спрашивают по теме занятия
*️⃣Проверка вашего решения ДЗ и фидбек на него
*️⃣Консультация по темам занятия
*️⃣Запись занятия

На данный момент я объявляю два занятия:
▶️Первое занятие про Линейную Регрессию и Градиентный спуск - БЕСПЛАТНО (6 февраля в 19:00)
▶️Второе занятие про Линейную Регрессию и Регуляризацию - 1000 рублей (13 февраля в 19:00)
▶️ Следующие занятия будут организованы примерно каждую неделю и запись на них будет в приоритете тех ребят, которые уже записаны на занятия

Чтобы записаться на первое занятие пишите: @Alexander_Isaev1
3.02.2025, 14:04
t.me/eboutdatascience/193
24
35
477
Уничтожение RAG - ML System Design 😁

Давайте пойдем по базе из этого поста, ещё можете чекнуть этот пост с разбором MLSD для обучения LLM

Как отвечать на вопрос вопрос: «Постройка мне Retrieve модель в RAG»? Давайте разбираться!

1️⃣ В начале разработки MLSD важно понять, что нам нужно сделать, поэтому в первую очередь формулируем задачу и ограничения.

Задача ❓
Построить Retrieve модель для рага в e-commerce. Мы большой магазин навоза и нам надо рекомендовать товар по запросу пользователя в LLM. Напомню, retrieve модель - это штука, которая на основе запроса пользователя ищет подходящий контекст, чтобы засунуть в ЛЛМ.

Ограничения:
Ограничения: Минимальная задержка (<3–5 сек.), иначе пользователь ливнёт и поставит нашему сервису какашку 💩

2️⃣ Метрики
Бизнесовые метрики 📞
➡️Conversion Rate - доля пользователей, совершивших покупку после взаимодействия с чат-ботом.
➡️Average Order Value (AOV) / Средний чек - средняя сумма покупки после взаимодействия с ботом (или в сравнении с пользователями, которые не общались с ботом).

Онлайн-метрики:
➡️Удовлетворенность клиентов (CSAT) — пользовательская оценка (1–5).
➡️CTR - процент кликов по товарам/категориям, которые Retrieval-модуль (и далее LLM) порекомендовал.

Оффлайн метрик:
➡️Precision@k: Доля релевантных документов среди топ-k результатов поиска.
➡️ROC-AUC: способность модели отделять релевантные документы от нерелевантных
➡️mAP, nDCG - Метрики ранжирования

3️⃣ Что там с данными? Откуда и сколько их получить, и как поделить на Train/Test ?
Источник:
Мы большой магазин навоза и нам ну прям нужен RAG, то скорее всего мы доросли до того момента, когда у нас есть своя БД с описанием сортов навоза и их уникальных особенностей - 5 млн записей 😋

Разметка:
Для Retrieve модели нам нужно получить данные: «запрос → релевантные документы». нанимаем копирайтера - Валюху, которая будет размечать нам данные. Но Валюха просит много рублей за свою работу, а мы не можем ей дать столько денег, то можем сделать начальную разметку с помощью TF-IDF или других BERT-like моделей.

Train/Test:
Случайно поделить на train/val/test (например, 70/15/15 - именно так мы должны разбивать навоз!) 🍫

4️⃣ Построение пайплайна обучения
BaseLine:
Сначала нужно сделать самое простое решение в качестве затычки. Нашей затычкой будет Elasticsearch на основе TF-IDF, который будет возвращать top-k=5 чанков. Чанк делим на 256 токенов или по структуре данных.

Норм решение для продажи навоза 💪
Гибридный подход - TF-IDF & ANN + E5 & Cosine Similarity + Reranker
Заранее считаем все эмбеддинги BM25 и E5 и храним всё в БД - Faiss, ChromeDB.
➡️Поступил запрос, находим 1000 ближайших записей на основе TF-IDF & ANN - то есть пихаем эмбеддинги TF-IDF в ANN, и получаем кластер из 1000 ближайших элементов к запросу. Считаем precision@k, k = 1000 - количество релевантных документов из всех элементов в кластере.
➡️Среди 1000 найденных записей находим топ 10 элементов с помощью E5 и cosine sim. Метрика: precision@k, k = [10, 5, 3, 1].
➡️Переранжируем эти 10 элементов обученной моделькой: CatBoost, LambdaRank или энкодер. Измеряем ROC-AUC, mAP, nDCG - если есть разметка.

Как обучать модели:
➡️ TF-IDF - обучаем свой токенайзер и на всём корпусе документов обучаем TF-IDF. Для экономии памяти можем через PCA сжать эмбеддинги.
➡️ E5 - X: (Query, Positive Doc, Negative Doc - синтетику генерим с помощью GPT, проверяем через G-Eval и копирайтеров), y: метки релевантности (Positive, Negative), Loss: Triplet Loss - он сближает релевантные пары с навозом и отдаляет нерелевантные.

ReRanker:
X: (Query, Document) + доп. фичи (score BM25/ANN/E5, клики, цена, популярность и т.д.).
y: бинарная (релевант/нерелевант) или градуированная (0–5). Loss: Pairwise Ranking (LambdaRank), Cross-Entropy (если классификация) или Listwise (nDCG-based).

5️⃣ A/B-тесты и мониторинг
Количество семплов: 1000, Train/Test = 70/30%, Онлайн-метрика: CTR, CSAT

Итог:
Вот мы и построили базовый документ модели ретривы в RAG`е для магазина навоза, который ещё можно дорабатывать. Если он вам был полезен, то надеюсь вы им воспользуетесь на собесах по MLSD 🐹
30.01.2025, 14:02
t.me/eboutdatascience/191
34
488
primary-link">s://habr.com/ru/companies/vk/articles/338360/" target="_blank" class="primary-link">
30.01.2025, 14:02
t.me/eboutdatascience/192
Результаты поиска ограничены до 100 публикаций.
Некоторые возможности доступны только премиум пользователям.
Необходимо оплатить подписку, чтобы пользоваться этим функционалом.
Фильтр
Тип публикаций
Хронология похожих публикаций:
Сначала новые
Похожие публикации не найдены
Сообщения
Найти похожие аватары
Каналы 0
Высокий
Название
Подписчики
По вашему запросу ничего не подошло