У вас закончился пробный период!
Для полного доступа к функционалу, пожалуйста, оплатите премиум подписку
Возраст канала
Создан
Язык
Русский
-
Вовлеченность по реакциям средняя за неделю
-
Вовлеченность по просмотрам средняя за неделю

Я - Саша Варламов, занимаюсь аналитикой и автоматизацией лет 15 уже (разраб, лид, PM, CTO, консалтинг). 2x Tableau Zen Master/Ambassador, 3 года NDA c Tableau. ex Playrix, ex inDrive. Здесь пишу свои истории про анализ и визуализацию данных.

Сообщения Статистика
Репосты и цитирования
Сети публикаций
Сателлиты
Контакты
История
Топ категорий
Здесь будут отображены главные категории публикаций.
Топ упоминаний
Здесь будут отображены наиболее частые упоминания людей, организаций и мест.
Найден 21 результат
DA
Data Bar
1 307 подписчиков
419
Слив личного расписания Трампа и визуализация плюс нейросети

Ещё в первое президентство Дональда Трампа в сеть слили приватные данные о рабочем расписании президента. Я визуализировал это и сделал рабочий график Трампа по типам активности. Визуализировал сливы, выходит.

Был очередной MakeoverMonday (https://makeovermonday.co.uk/ - там много ссылок на датасеты) - челлендж по построению визуализаций. Взяли данные слива, построили датасет и предложили по ним датавиз челлендж. Данные интересные - надо было пробовать.

📃 Сама статья по сливам данных на Axios.

В статье писали что инсайдер из Белого Дома раскрыл личное расписание Трампа. Слив в виде документа ещё остался в сети.
Там данные с ноября 2018 по февраль 2019г. А вот датасет с сайта data.world почему-то удалили.

Слив личного расписания Трампа в виде pdf (95 страниц) прикладываю в комментарии. Для экспериментов.

📊 Визуализацию можно посмотреть здесь.
В датавизе - диаграмма Ганта, стандартный тип диаграммы для расписаний. Но диаграмма нестандартная, сделана на полигонах.

Итак, что же делал Трамп в первое президентство.
Первая встреча в рабочий день обычно 11:30 на полчаса. Это встреча с главой администрации Белого Дома или брифинг. Очень много звонков и встреч. Встречи названиями и локациями, допускали прессу или нет. Обед обычно в 12:30, можно поискать в pdf по слову "Lunch".

60% времени - Executive Time. В это время играет в гольф что-то делает в овальном кабинете или резиденции. В Рождественские праздники Трамп не работал.

Сама визуализация - пример того как pdf на 95 листов умещается на одной диаграмме.

Скормите pdf нейросетям - пусть поищут инсайты. Я пробовал - классно получается. Можно позадавать вопросы сколько времени из какого места работал, кому давал интервью, где зажигал рождественскую елку и т.д..

Результаты прикладывать не буду - экспериментируйте сами. Но удивительно, конечно, что анализ документов дошёл до такого уровня.

Ждём новых сливов!
24.04.2025, 09:07
t.me/data_bar/80
DA
Data Bar
1 307 подписчиков
579
Истории из геймдева и недооценённые возможности

В геймдеве работал 3,5 года - одна из ярких полос в трудовой биографии. Сегодня расскажу свои истории из геймдева, и о том, как сильно недооценил проекты. Примечательны они тем, что 2 продукта, про которые пойдет речь, сейчас очень известны в мире, а на момент этих историй про них почти никто не знал. Попробуйте догадаться о чём идёт речь. Названия проектов буду закрывать спойлерами.

История 1. Год 2021, май.
Мне в LinkedIn пришло письмо о позиции дата-аналитика на одном гейминг-проекте. Писал рекрутёр из Ирландии, часть команды была в Питере, а студия бельгийская. В письме он рассказывал о разработке RPG проекта. Название игры я знал - её сделали ещё в 90х. Права на следующую часть купила другая студия, и под проект искали людей. Сама игра из 90х уже была классикой, её выпустила BioWare. Чтобы получился классный продукт, надо было очень постараться. Компания и команда были другие. Я скептически отнёсся к тому, что получится что-то адекватное, тем более, с замахом на классику. В общем, отказался. Но мне и так было в кайф - работал в Playrix, а это один из топов игровой индустрии.
Отказался и забыл. Через 2 года игру выпустили, и она разорвала все возможные рейтинги, став самой продаваемой игрой в Steam в день выхода. Узнал в новостях - писали почти все про успех игры.

Проект называется "Baldur's Gate 3", а студия - "Larian Studios".

История 2. Год 2019, ранняя весна.
Игровые компании тратят колоссальные деньги на рекламу. Самые большие партнеры - Facebook и Google. Однажды был на встрече по маркетингу, где рассказывали про китайские соцсети и рекламу в них. Названия сетей мне ни о чём не говорило, но маркетинг хотел часть денег отгрузить именно им, и почему-то одна сеть считалась перспективной. Посмотрел потом на контент соцсети - там была совершеннейшая дичь на китайском языке: какое-то видео, и непонятно кому вообще это надо. Подумал ещё, что деньги мы потеряем.
Через год про эту сеть знали примерно все.

Это Tik Tok, который через 2 года стал самым популярным ресурсом в сети, обогнав Facebook и Google.

Нас окружают возможности, а мы даже не придаём этому значения. Может выстрелить совершенно непонятный, на первый взгляд, проект.
21.04.2025, 08:01
t.me/data_bar/79
DA
Data Bar
1 307 подписчиков
588
Проекты, продукты
и продуктовый подход в пет-проекте

Сегодня расскажу как мы подходим к планированию и задачам в нашем пет-проекте анализа зарплатных вилок в IT. Команда: Саша, Рома, Никита.

Мы написали статью на vc.ru, где рассказали о процессе работы над проектом. Отдельно подсветили сколько стоят облачные мощности и LLM модели. Сам проект VILKY начинался с идеи актуального открытого анализа зарплат в IT. Есть дашборд 📊 с зарплатами и канал TG 🛫 со статистикой и отчётами.
В канале @vilky_it сейчас 143 человека. Запустили дайджесты по IT направлениям, начали публиковать исследования.

В посте затрону тему продуктов и проектов, расскажу как планируем и разрабатываем.

Любой проект всегда имеет сроки, фиксированный объём работ и ресурсы для его реализации. Проект может перерасти в продукт либо просто завершиться. Продукт же ориентируется на создание ценности для конечного пользователя, которая достигается за счёт непрерывного улучшения.

В нашем случае, на момент старта проекта был готов дашборд и скрипты парсинга. В проекте нужно было автоматизировать сбор данных, сделать проверки, алертинг и допилить сам дашборд. На выходе видели дашборд с ежедневным автообновлением и одним источником данных. Мы взяли на это 4 недели.

MVP был готов через 3 недели, и проект трансформировался в продукт. Продукт - это инструмент анализа "Дашборд VILKY". Продукт мы описали метриками. Главная метрика - число просмотров дашборда, её вывели в сам даш. Есть ещё метрики быстродействия, качества и количества данных, а также финансовые. Получилось небольшое дерево метрик, за которыми следим.

Про продуктовый подход много всего написано, отдельно про это не буду. Смысл в том, что выбираем метрики и растим их, непрерывно улучшая продукт.

Следующим проектом, переросшим в продукт, стал телеграм канал "Vilky_it". Он вырос из служебного канала, куда скидывали статистику по вакансиям. Этот продукт также имеет своё дерево метрик. Вот здесь с ценностью для пользователя пока не до конца ясно. Кажется, что ценность - это актуальная статистика по рынку вакансий в разных разрезах. Но может, и трансформируется во что-то другое.

Итого, внутри одного пет-проекта VILKY сейчас существуют несколько проектов и продуктов.

Все планы делаем на одной доске Miro 💨, где ведём диаграмму Ганта с задачами. Кусок доски - на заглавной картинке. Это помогает планировать, увидеть прогресс, понять кто и что делает. Также интересно посмотреть историю задач. Времени не так много - это всё-таки пет-проект, поэтому активно используем нейронки, и жёстких сроков не ставим. Выглядит лайтово, но движемся вперёд небольшими шагами.

На данный момент у нас в базе пара миллионов (!) вакансий (не только айтишных) с описаниями и параметрами за приличный срок. И здесь открывается колоссальный объём работ для нейросетей 🧬, но облачными нейронками всё это обрабатывать дорого, поэтому, придумываем как их разбирать подешевле.

Кроме этого, на таком объёме данных можно увидеть много интересного. Под исследования ресурсов пока маловато - нужно просто время. В канале начали вести рубрику "Инсайды", где рассказываем про какие-то неочевидные и нетривиальные вещи, делимся результатами исследований. В первом посте на эту тему рассказывали про мексиканский банк 'Plata Card' - это стартап который через 3 года существования стоит $1,5 млрд.. Корни российские, банк основан бывшими менеджерами Тинькофф, русскоязычная команда, есть открытые вакансии на удалёнку или в Мексику.

Исследованиями ходим проверять гипотезы на данных рынка вакансий. В сети очень часто встречаются "экспертные мнения" о рынке труда, где нет никаких данных - просто эксперт так видит. Мы хотим видеть доказательства. Доказательства без данных невозможны, поэтому в исследованиях будем прикладывать графики и диаграммы, ссылки на данные. Это обеспечит прозрачность анализа.

📊 Данные по зарплатам в вакансиях за последние 7 дней - в дашборде.

🛫 Канал со статистикой и отчётами @vilky_it
16.04.2025, 09:51
t.me/data_bar/78
DA
Data Bar
1 307 подписчиков
538
Visual Capitalist и Voronoi App как среда сторителлинга

Сегодня пост о большом известном СМИ графиков и диаграмм. Visual Capitalist позиционирует себя как СМИ, создающее и продвигающее Data-driven visual content. Компания находится в Ванкувере. В X (твиттере) сейчас больше 300k подписчиков. Сайт работает давно, там постоянно выходят статьи про визуализации и данные. Используют как свои визуализации, так и из сети.

Про мои работы они делали 2 статьи:
- Visualizing the Depth of the Great Lakes
- Animated Map: The History of U.S. Counties
Это статьи про Великие озера и таймлайн создания США. Текст их, оригинальный. Публикации привели на мой сайт несколько тысяч юзеров.

Чем же хорош Visual Capitalist как СМИ?

1️⃣. Они очень давно двигают подход визуализаций данных в СМИ.
2️⃣. Визуализации рассчитаны на широкую публику: простые и понятные.
3️⃣. Визуализации на небольшом объёме данных, буквально, несколько строк.
4️⃣. Чуть больше года назад они запустили Voronoi App. Более подробнее будет ниже.

Почти за 15 лет ребята собрали огромное сообщество, интересующихся визуализацией данных и инфографикой. Их аккаунты есть почти во всех соцсетях, инфографику используют "The Wall Street Journal", "The New York Times" и множество других известных изданий.

Мне Visual Capitalist нравится тем, что использует простые и понятные широкому кругу визуализации. Их инфографика далеко не всегда академична, какие-то работы вызывают осуждение т.н. "дата экспертов". Но целевая аудитория - точно не академики.

Теперь про проект Voronoi. Думаю что немногие про него знают, поэтому и сделал этот пост. Это приложение, в котором публикуются и обсуждаются визуализации. Там можно создавать аккаунты и публиковать свои визы. Но работы не интерактивны в самом приложении - это картинки, которые лучше отнести к инфографике.

Каждый пост содержит:
1️⃣. Сам виз
2️⃣. Описание визуализации
3️⃣. Датасет
4️⃣. Ссылки на источники данных

Это очень удобно, когда вся эта инфа, включая авторов, есть на экране телефона.

В Voronoi App есть аккаунты СМИ и дата-агентств, специализирующихся на инфографике и дата-журналистике. Это Statista, Econovis и др. А ещё можете найти аккаунты известных специалистов в области инфографики и дата-журналистики.

Приложение нишевое (в сторах 100+k инсталлов, зимой было 50k), но зато там нет скама, как в X, и только по делу общаются в комментариях. Выбирают виз недели, есть рубрика "Выбор редакции". То есть, это огромный архив инфографики с описанием и комментариями, где можно смотреть чужие работы и публиковать свои. Публикации могут набирать десятки тысяч просмотров.

Можно присоединиться к комьюнити и стать data-driven storyteller, публикуя свои работы. Получите и просмотры и фидбек. На мой взгляд, это хорошая возможность и показать свои работы и поучиться у других.
12.04.2025, 10:20
t.me/data_bar/77
DA
Data Bar
1 307 подписчиков
855
Проект VILKY. LLM, телеграм канал и дайджесты

Давно не писал про проект VILKY и анализ IT вакансий. Мы дошли до самого интересного: LLM и нормализации данных. Над этим работаем несколько месяцев, но не писали ещё.

К нам с Никитой присоединился Рома, и мы продолжаем развивать пет-проект. Рома занимается Data Quality, пишет и проводит тесты. И у него есть канал Котолитик - там подробнее про это.

🪄 Три больших новых этапа к этому моменту:
1. LLM и нормализация данных
2. Тесты качества нормализации и усложнение промптов.
3. TG канал со статистикой по вакансиям

Подключение дополнительных платформ пока было в меньшем приоритете, но забираем с HH по API для тестов.

🎆 Самая крутая фича, которая сейчас работает с данными - это комплексный анализ данных различных полей и их нормализация. Что это означает? Например, в вакансиях есть навыки, и в сервисе они складываются в отдельную таблицу БД. Навыки в вакансиях могут быть указаны как попало: "Python 3.8", "Python 2", "PYTHON", "Питон" и т.п.. В данных они должны быть в одном виде, то есть, их надо нормализовать. С этим у нас отлично справляется LLM (YandexGPT): она приводит одинаковые навыки к одному написанию по шаблонам LinkedIn и StackOverflow. Если в навыках указана ерунда - это убирается из данных. И, самое интересное, модель изучает полное описание вакансии и добавляет навыки, которые прямо или косвенно есть в тексте вакансии, но их не указали явно в категории скиллов. Мы стремились минимизировать число навыков, но LLM нагенерировала новые. Поэтому, сделаем справочник и по нему нормализуем.

Также мы нормализовали поля грейда и вилок зарплат. По описанию вакансии LLM может определить грейд (senior, middle и т.д.). Зарплатные вилки тоже указываются по-разному, бывают ошибки. Поэтому, нормализуем данные по ЗП до трёх полей: min ЗП, max ЗП, валюта.

В процессе и планах нормализации: локации, net или gross в указании зарплат, плюшки каждой вакансии и др..

Про техническую реализацию нормализации читайте в канале у Никиты, а Рома написал про создание, запуск тестов проверки корректности работы LLM и про картинки для постов.

Такую красоту данных нет смысла прятать, поэтому сделали TG канал 'VILKY', куда ежедневно автоматически публикуются прикольные рубрики с топами вакансий, компаний и всему что придумаем. Дизайн картинок и весь концепт придумывали и делали вместе. Я реализовал на Tableau Public. Кроме этого, ежедневно публикуются дайджесты по вчерашним данным и недельные дайджесты.

Ежедневный дайджест - набор из 5и визуализаций:
1️⃣ Метрики по всем подключенным платформам вакансий за вчера
2️⃣ Средняя ЗП и число вакансий по направлениям IT
3️⃣ Топ навыков в вакансиях
4️⃣ Топ новых вакансий по направлениям IT
5️⃣ Топ закрытых вакансий по направлениям IT

Дайджест сделали в виде слайдов. У Тиньков инвестиций примерно так же - понравилась эта концепция. Были другие варианты, но остановились на этом.

🥁 Сам телеграм канал 'VILKY. Вилки зарплат в IT' 🥁

Каждый день автоматически скидывается статистика вакансий IT. Добавим постепенно месячный и дайджесты по всем IT направлениям. Можно просто заходить и смотреть статистику.

Фидбек очень важен, будем прислушиваться и формировать роадмап. Комментарии и эмоджи открыты - можно писать в комменты что добавить, улучшить или убрать.

Все сообщения в канале автоматические, но, пока обкатываем, сделали себе в тестовый канал те же публикации, но на час раньше. Баги возможны, будем смотреть и фиксить.

📊 Детально можно смотреть вакансии в даш
борде 📊

Его оптимизировали немного. В дашборд добавили статистику просмотров за последние 7 дней. Автоматически забирается по API Tableau Public. В дашборде сейчас 3 нормализованных поля, про которые писал выше. Поэтому, можно считать его AI powered.

Итого, мы построили систему, которая:
1️⃣. Автоматически собирает данные
2️⃣. Автоматически записывает всё в базу данных
3️⃣. Автоматически нормализует данные
4️⃣. Автоматически тестирует данные
5️⃣. Автоматически генерирует визуализации
6️⃣. Автоматически генерирует сообщения
7️⃣. Автоматически отправляет сообщения в канал
24.03.2025, 10:09
t.me/data_bar/76
DA
Data Bar
1 307 подписчиков
810
12 работ в лонглисте премии "Information is beautiful Awards 2024"

В январе писал о премии в области визуализации данных "Information is Beautiful Awards", и как подавал 15 своих работ за прошлый год. Прошли 12 - считаю это успехом. Всего в лонглисте 876 работ.

📊 Дашборд по вилкам зарплат тоже вошел в лонглист. На момент подачи он был статичным, а позже мы автоматизировали процесс сбора данных с Никитой.

Приятно, что много работ от ребят из русскоязычного сообщества датавиза. Полный список составим совместно с сообществом, добавлю его сюда.

Есть сырой парсер, который собирает работы премии за всё время. Пока плохо работает, есть ошибки в данных. Нужно время чтобы проверить всё и сделать нормальный. После сбора всех данных, на таком датасете можно будет построить крутые датавизы.

🎆 Далее - этап шортлиста, на нём очень много работ отсеивается. Болеем за наших!

Все 12 работ в лонглисте 2024:

1. IT Jobs Dashboard
2. Global Flag Colors
3. Public Telegram Channels
4. NBA Gems
5. NBA Scorigami
6. Telegram Tech Channels
7. Glassdoor Data Analyst Jobs
8. The Tree of Life by AI
9. Cast & Crew IMDb Trends
10. Formula 1. World Constructors'
11. International Football Results
12. IMDB Top Movies
13.03.2025, 14:16
t.me/data_bar/75
DA
Data Bar
1 307 подписчиков
Репост
489
9.03.2025, 11:57
t.me/data_bar/73
DA
Data Bar
1 307 подписчиков
Репост
489
9.03.2025, 11:57
t.me/data_bar/72
DA
Data Bar
1 307 подписчиков
Репост
489
9.03.2025, 11:57
t.me/data_bar/71
DA
Data Bar
1 307 подписчиков
Репост
489
9.03.2025, 11:57
t.me/data_bar/69
DA
Data Bar
1 307 подписчиков
Репост
489
9.03.2025, 11:57
t.me/data_bar/70
DA
Data Bar
1 307 подписчиков
Репост
489
9.03.2025, 11:57
t.me/data_bar/67
DA
Data Bar
1 307 подписчиков
Репост
489
9.03.2025, 11:57
t.me/data_bar/66
DA
Data Bar
1 307 подписчиков
Репост
489
9.03.2025, 11:57
t.me/data_bar/68
DA
Data Bar
1 307 подписчиков
Репост
489
9.03.2025, 11:57
t.me/data_bar/65
DA
Data Bar
1 307 подписчиков
Репост
489
Лучшее с Табло Паблик 2024
Собрал работы с Табло Паблик, которые запомнились мне больше всего в прошлом году. Получилось четырые категории: инфографика, карты, дашборды и технические трюки. Если знаете ещё крутые работы — кидайте в комментарии.

Отдельно хочу подсветить наших Табло гуру и джедаев: Настя Кузнецова, Саша Варламов, Лиза Горяйнова, Маша Мазюк, Аня Просветова. Вы просто огонь, очень классные работы!

Для затравки несколько картинок выше, а полная подборка с ссылками:
в блоге 👈

Предыдущие: 2023 | 2022 | 2021 | 2020
#подборка
9.03.2025, 11:57
t.me/data_bar/74
DA
Data Bar
1 307 подписчиков
739
Проект VILKY. Roadmap, API, dbt и MongoDB

Прошлая неделя была неожиданной для совместного с Никитой проекта анализа зарплатных вилок IT. Дашборд попал в IT паблики. Мы получили море фидбека и предложения сотрудничества. 🔥

Пришлось на ходу менять Roadmap . Да, теперь он есть у проекта. Про Roadmap и метрики напишем позже.
У проекта появилось название 'VILKY' и лого. Мы просто нарисовали вилку 🍴 🍽.

Сегодня проекту автоматизации ровно месяц. Малыш ещё, но уже полноценный проект с роадмапом, DWH, VPN, API и визуализацией.

Основные фичи этого релиза:
1. Добавлены данные 3го агрегатора вакансий: Geekjob
2. Глубина данных дашборда увеличена до 15и дней. Можете смотреть динамику
3. Развёрнут API
4. Развернут и работает dbt. Нужен для трансформаций данных
5. Развёрнута база MongoDB. Сервис может принимать вакансии в виде текстовых документов и складывать в БД

По фичам:
1. Парсер Geekjob работает нормально, но есть вопросы к чистоте данных. В сервисе можно указывать несколько грейдов, и непонятно для какого указывать вилку. Поэтому, выбираем наименьший, то есть, если указано Junior, Middle, Senior, в дашборде такая вакансия уйдёт в категорию Junior. Есть проблемы с указанием ЗП - могут написать 500 000K, например. Приходится обрабатывать такое пока на уровне дашборда. После сбора всех платформ будет нормализация на уровне DWH. В работодателях встречается такое: 'Рекрутёр Олег' или 'Агентство Эйчар'. Это всё собираем, но в дашборд не идёт.
2. Просто посмотрите на историчность 15и дней. Немного доработали для этого экспорт в Google Sheets, чтобы таблицы были меньше.
3. API - топ фича. Читайте у Никиты в канале 'Joni in Web' как и зачем это было сделано.
4. dbt - тоже топ, большой задел на будущее. Тоже Никита развернул подключил новые данные.
5. MongoDB по API может получать вакансии в виде документов. Потом парсим, и в DWH.

Далее - самое интересное, давно в работе, но не писали про это. Надеемся, всё получится ❗️

📊 Посмотреть IT вакансии и зарплаты на дашб
орде
5.03.2025, 10:24
t.me/data_bar/64
DA
Data Bar
1 307 подписчиков
1.8 k
Агрегаторы IT вакансий и их сравнение

Продолжаю рассказывать о совместном с Никитой (канал 'Joni in Web') проекте анализа зарплатных вилок в IT. Начали с ежедневного сбора актуальных вакансий Getmatch и вывода данных на дашборд. Штука оказалась популярной, поэтому, продолжаем развивать.

🪄 Новое на текущем этапе:
1. Подключены данные платформы 'Хабр Карьера'.
2. Переехали с PostgreSQL на Clickhouse. Несколько изменена логика таблиц.
3. Настроен свой VPN. Никита писал у себя в канале о разработке собственного VPN 🛡
4. Настроен экспорт в Google Sheets для ежедневного обновления дашборда
5. Пересмотрен и переделан алертинг сбора данных
6. В дашборд добавлено несколько фич, он переключен на Google Sheets

У Никиты в канале можно подробно прочитать о технической реализации ETL части и алертинга. Здесь коротко напишу что сделано:

1. Парсер вакансий Хабр Карьеры отрабатывал всю прошлую неделю утром. Данные собирались и записывались в базу данных. На выходных, когда руки дошли проверить что записалось, выяснили, что DAG не совсем верно отрабатывал, и часть данных не записалась. Лучше столкнуться с такими багами 🐞 на старте, чем через месяц. Это исправили, и сейчас есть 4 дня полных данных по Хабру.
2. Переезд с PostgreSQL на Clickhouse состоялся по архитектурным причинам.
3. Экспорт в Google Sheet нужен только для Tableau Public. Паблик не поддерживает обновления по запросу из других источников.
4. Было добавлено сравнение записей в БД с записями парсера
5. В дашборде +1 новая платформа агрегации вакансий. Можно сравнивать вакансии и зарплаты на разных платформах. Добавлена сортировка по нескольким метрикам в общей таблице. Лого компаний подтягиваются с Хабра в таблицы. Переключение на Google Sheets прошло не очень гладко - послетали форматы и цвета, пришлось восстанавливать.

❗️В итоге, в публичном даше оставили 8 последних дней с двух платформ. В своём внутреннем дашборде собираем все данные.

По данным Хабр Карьеры. На Хабре только 20% вакансий с зарплатами, но собираем все. Есть вакансии Junior и Intern, их нет на Getmatch. Прикольно посмотреть что есть по джунам. По IT направлениям пришлось делать матчинг по ключевым словам - таких категорий в данных не было. Ещё в вакансиях Хабра может быть указано несколько городов, а в Getmatch - только один. Эту проблему планируем решить в следующей итерации добавлением в базу таблицы Location.

📊 С унификацией данных для разных платформ проблем действительно хватает:
1. По-разному указываются компании, напр. 'Avito' и 'Aвито'.
2. Число локаций в вакансиях может быть >1.
3. Навыки могут сильно различаться. На Хабре много того, что можно не писать в навыках, напр. 'Программирование'. В Getmatch - по делу, основные инструменты.
4. Названия вакансий на могут быть совершенно непонятными или с ошибками.
5. Лого платформ в разных форматах и разрешениях - криво подтягиваются в дашборд.
6. Не всегда понятно, зарплаты указаны Net или Gross.
7. Удалёнка может быть неявно прописана где-то в тексте вакансии. Где-то есть part time.
В общем, куча задач для LLM рисуется.

Другие инсайты ищите в дашборде по вакансиям IT. Можно, например, порадоваться за инженера по безопасности с ЗП до 2 600 000. Или посмотреть сколько вакансий публикуют по понедельникам.

На следующем этапе подключим третью платформу, поднимем dbt. По мере реализации проекта может много интересного произойти (в идеале - дойти до прогнозирования вилок ЗП по любой вакансии). Следите за постами.

📊 Дашборд на Tableau P
ublic обновляется ежедневно и собирает последние 8 полных дней
25.02.2025, 10:12
t.me/data_bar/63
DA
Data Bar
1 307 подписчиков
566
Волны кинобизнеса и кассовые сборы в кинотеатрах

В 'The New York Times' в 2008 году вышла визуализация кассовых сборов фильмов с 1986 по 2008. Тогда она была революционной, и позже завоевала несколько премий. Сама визуализация показывает денежный поток или всю выручку от проданных билетов во времени. В глаза бросаются самые кассовые фильмы.

А помните, 5 лет назад закрылись все кинотеатры 📽 на планете? Примерно с февраля по март закрыли всё. И деньги на развлечения ушли из оффлайна в онлайн буквально за считанные дни. Для онлайн развлечений настала золотая эра.

Летом 2020го я сделал визуализацию 'Movie Waves in 21st Century'. Вдохновился тогда именно визом 'The New York Times'. Хотел показать весь денежный поток фильмов с начала века до закрытия кинотеатров. Визуализация - это один большой Area Chart, разбитый по годам. Один фильм - одна область на графике, а цвета - дистрибьюторы (Warner Bros, Universal Pictures и т.д.). Данные только по продажам в США (Domestic Box Office).

Когда придумал концепцию визуализации, начал искать данные по дням или неделям продаж билетов в кинотеатры во всём мире. Таких данных не было. Разбивка до месяца не устраивала, поскольку фильмы обычно в прокате 4 недели. Нашёл подходящие данные, но только по продажам в США на сайте Box Office Mojo.

Сервис Box Office Mojo показывает кассовые сборы фильмов. Можно смотреть в разных разрезах и даже по дням, но только анные США. Возможно, продажи билетов во всём мире сложно собрать в принципе.

Сайт не отдаёт готовые датасеты, поэтому написал парсер и собирал данные так. На сайте данные в таблицах, надо было их спарсить и немного почистить.

В саму визуализацию включал только фильмы с > $10 млн выручки. Некассовых фильмов очень много, на визуализации их почти не видно, а точки для отображения строить приходится. В визуализации 13723 фильма с 2000 по 2020 год. И 234000 точки, на которых построена вся визуализация. Внутри каждой недели я рассчитывал дополнительные точки, чтобы недели соединялись не прямой, а плавной s-образной кривой. Пробовал 1млн и 500тыс точек, но тогда виз долго загружается.

В итоге, получились получились интересные волны денежного потока фильмов. Видны эффекты нарастания и спада волн, одна волна сменяет другую. Для того, чтобы волны накладывались друг на друга по мере старта проката фильмов, сделана сортировка точек на уровне датасета. В каждом году топ 12 фильмов помечены аннотациями.

❗️Теперь к инсайтам!

В каждом году можно видеть наиболее успешны прокатные сезоны и фильмы. Самые кассовые сезоны в США - Рождество и середина года.
Пики успешных фильмов в прокате видны сразу:
- 'Мстители: Конец игры' в 2019
- 'Черная пантера' в 2018
- 'Звёздные войны: Последний джедай' в 2017
и множество других. Выделяются франшизы 'Властелин Колец', 'Гарри Поттер', Marvel, DC Comisc, мультфильмы Pixar.

Интересно посмотреть по дистрибьютерам:
- Warner Bros. выпустил много фильмов по DC Comics: 'Джокер', 'Аквамен', 'Бэтмен', 'Отряд самоубийц'.
- Universal Pictures - много кассовых мультфильмов
- Dream Works - 'Трансформеры', 'Шрек', 'Мадагаскар'. Виден рассвет и закат этого периода. Студию продавали и переименовывали.
- New Line Cinema - 'Властелин колец' в начале века и постепенный спад сборов

Можно видеть рост кинобизнеса по годам.

Ну, и самый неприятный год 2020 показывает скатывание денежного потока в ноль из-за пандемии.

Планирую вернуться к визуализации и добавить прошлый век плюс последние 5 лет. Это мой любимый виз. Причины простые:

- 🎦 Кино . Это интересно и понятно всем
- 👫 Наша жизнь тесно связана с фильмами . Просто вспомнить когда и с кем ходили в кино тоже очень увлекательно
- ➕ Интересные математические расчёты
- 📊Отсылка к одной из самых известных визуализаций данных
- 🏄‍♀️ Волны. Они показывают взлёты и падения не только кино, но и всей истории
- 🖼 Просто красиво, и можно повесить на стену
21.02.2025, 09:40
t.me/data_bar/61
DA
Data Bar
1 307 подписчиков
1.5 k
IT вакансии и автоматизация парсинга зарплат

В конце осени я рассказывал про парсинг IT вакансий сервиса Getmatch и глобального сервиса Glassdoor. Интересно что дашборд по вакансиям Getmatch и зарплатным вилкам вызвал живой интерес, он до сих пор просматривается - уже более 11 000 просмотров. Его я обновлял раз в две недели - тогда казалось что это нормальный диапазон мониторинга вакансий. На самом деле, за 2 недели может очень много поменяться - закрываются и открываются новые вакансии на сайте достаточно шустро. Динамика по конкретным компаниям или направлениям должна отражать веяния рынка IT. Поэтому, хотелось посмотреть именно на тренды во времени, но для этого надо иметь ежедневные срезы.

Вручную ежедневно обновлять данные не комильфо - надо автоматизировать. Здесь случилась коллаба с разработчиком Никитой Ивановым. Думали как можно сделать. Мне казалось что достаточно запускать парсеры по условному крону и складывать данные в базу данных. Но Никита придумал и сделал полноценную систему с Airflow, облачным PostgreSQL, проверками, возможностью автоматического экспорта в Google Sheets алертингом в Телеграм. Получилось действительно круто!
Про то как и что делал, Никита описал у себя в канале. Го читать Никиту в его канале 'Joni in Web'.

В итоге, сейчас у нас есть система сбора данных открытых вакансий Getmatch. В 8 утра скрипты собирают все вакансии за полный вчерашний день и складывают в базу. Кроме этого, собираются навыки/инструменты по каждой вакансии и подтягивается актуальный курс валют с сайта Центробанка. Курс валют нужен для перевода в рубли валютных зарплат.

В дашборд по зарплатным вилкам добавились:
- Временные тренды по вакансиям
- Открытые и закрытые вакансии в конкретный день
- Таблица вакансий с лого компаний, где визуализированы зарплатные вилки. Можно из дашборда переходить на страницу вакансии

Сейчас можем считать время активности вакансий, видеть тренды в конкретных разрезах и ещё много интересного. В публичном дашборде несколько дней: 8 последних дней и несколько прошлых снепшотов с осени. Подключение к Постгресс. Для обновления публичного даша нужен экспорт в Google Sheets (ограничение Tableau Public) - это следующий этап.

❓ Для чего это всё?
Пока я не видел ни одного нормального публичного инструмента анализа зарплат в IT. Очень сложно ответить на вопрос: 'Сколько сейчас стоит разработчик?'. Просто потому что много факторов, влияющих на ЗП. Анализ ЗП - это либо статистика одной платформы (hh, например), либо опросы в каких-то сообществах.

Проблема опросов в том, что они нерелевантны в большинстве случаев. Большинство IT профи из моего круга общения никогда не проходили опросы - им это неинтересно. Я тоже никогда не проходил, даже слабо представляю кто и где это проводит.

❗️ Поэтому, мы собираем данные вакансий и делаем инструмент анализа.

⚡️ Что дальше?
У нас есть парсер, и настроен ETL процесс сбора данных в БД по другой известной платформе с IT вакансиями. Данные платформы подтягиваются в дашборд, и можно сравнивать вакансии разных платформ - там очень много интересного (даш пока непубличный). Есть проблемы унификации данных разных платформ - это то, c чем помогает ML. Про это и следующие этапы проекта обязательно расскажем и напишем.
17.02.2025, 10:11
t.me/data_bar/60
DA
Data Bar
1 307 подписчиков
729
Сложные функции и параметрические портреты

А помните, в школе строили параболы и гиперболы в тетради? В заглавных картинках тоже функции, только посложнее. Вот интересно, в какую сложность функций можно уйти в принципе, насколько большими функциями мы можем манипулировать. В научной фантастике встречается понятие 'Формулы всего' или уравнения вселенной. Если знаем такую функцию, можем ответить на любые вопросы вселенной. Но есть мнение, что ответ на все вопросы - 42.

Сегодня покажу примеры того как функциями можно описать сложные геометрические объекты - портреты знаменитых людей. Для каждого портрета подбирается только одна функция, но функции эти очень большие. Зная функцию y=f(x), можно, строить точки с некоторым шагом, соединять соседние точки прямыми и получать изображения. Для отображения точек на плоскости функцию преобразуют в параметрический вид: x=f(t), y=f(t). Это параметрические уравнения.

Представим что мы как-то нашли функцию, описывающую ваш портрет. Таким образом, для получения портрета вам не нужны никакие данные кроме диапазона t. В среде Wolfram Alpha функции, описывающие портреты, называются Person Curves. Процесс поиска таких функций описан в блоге Wolfram. Статья 1, Статья 2, Статья 3.

Немного про Wolfram Research и Wolfram Alpha. Wolfram Research - корпорация, созданная Стивом Вольфрамом в 1987 году. Стив Вольфрам - человек, сочетающий математика и успешного предпринимателя. Если работали со средой Mathematica, то знаете о Wolfram Language. Стив известен описанием и популяризацией клеточных автоматов, изобретением языка пришельцев специально для фильма 'Прибытие' Дени Вильнёва (подробная статья в его блоге) и много ещё чем интересным. В общем, дядька разносторонний и по-хорошему сумасшедший.

Продукт WolframAlpha задумывался как 'Answer Engine', который отвечает на вопросы на основе данных внешних источников. Сервису 15 лет, и это всё было до популяризации AI. В общем, эта штука может генерировать сложные функции, визуализации и т.п..

Параметрические функции Person Curves я забирал из WolframAlpha, потом преобразовывал параметрические уравнения в формат Tableau, где и отображал их. Уравнения огромные, поэтому вручную править их нереально - писал скрипт на питоне. Весь процесс со скриптами и ссылками в моей статье.

Итого в визуализации 'Person Curves Album' 20 портретов известных людей, каждый из которых описывается двумя параметрическими уравнениями. Из внешних данных достаточно двух значений 0 и 1. Есть ещё параметры, которыми можно задавать шаги рисования функции и сложность (число точек).
31.01.2025, 10:24
t.me/data_bar/59
Результаты поиска ограничены до 100 публикаций.
Некоторые возможности доступны только премиум пользователям.
Необходимо оплатить подписку, чтобы пользоваться этим функционалом.
Фильтр
Тип публикаций
Хронология похожих публикаций:
Сначала новые
Похожие публикации не найдены
Сообщения
Найти похожие аватары
Каналы 0
Высокий
Название
Подписчики
По вашему запросу ничего не подошло