Página do canal Telegram: Joni in Web • @joni_in_web

O seu período de teste terminou!

Para acesso total à funcionalidade, pague uma subscrição premium

Joni in Web

https://t.me/joni_in_web

Idade do canal

Criado

Linguagem

Russo

ER (semana)

ERRAR (semana)

Канал Никиты — разработчика с 4-летним опытом в IT. Делюсь проектами, ошибками и лайфхаками. 🎯 Учиться, учиться — и получить прекрасный оффер! @ironjoni

Mensagens Estatísticas

Principais categorias

As principais categorias de mensagens aparecerão aqui.

Principais menções

Não foram detectadas menções significativas.

Encontrado 4 resultados

Joni in Web

186 assinantes

183

YandexGPT — это нейросеть семейства GPT, разработанная компанией «Яндекс». Она предназначена для создания и обработки текстов, генерации идей и взаимодействия с пользователями с учетом контекста. А теперь и мы ее юзаем. Что удалось сделать за две недели, сейчас расскажу 😁:

Пссс... К нашей с Сашей команде примкнул Рома, и мы вместе продолжаем работать над пет-проектом. Рома отвечает за Data Quality, пишет тесты и проводит их. А ещё у него есть канал Котолитик, где он подробнее рассказывает об этом.

⭐️ Нормализация и LLM
Мы отправляем каждую вакансию в YandexGPT с кастомным промптом, чтобы получить нормализованные поля в формате JSON: навыки (например, "Python 3.8" → "Python"), зарплаты (min/max/валюта), локации. Модель неплохо справляется 🫂

Для валидации ответов (в доке YGPT честно пишут, что она может "выдумывать") Рома написал SQL-тесты. Они сравнивают исходные данные, распаршенные по полям, с тем, что вернул GPT. Например, если в вакансии навык "Питон" стал "Python", а ЗП "100k-150k RUB" разложилась на min: 100000, max: 150000, валюта: RUB — тест это подтверждает.

🛫Оптимизация дашборда через DBT
Раньше часть расчётов (агрегации, фильтры) жила в Tableau у Саши — это тормозило дашборд при росте данных. Я перенёс их в DBT: теперь трансформации (например, категории вакансий) происходят на уровне базы данных. Результат: дашборд грузится быстрее, а логика версионируется в коде. Пока перенёс только ключевые расчёты, но уже видно прирост производительности — запросы на 20-30% шустрее.

🐤 Автоматизация Telegram-канала
Настроил автоматическую отправку постов в @vilky_it. Данные из базы преобразуются в дашборды и дайджесты (топ навыков, новые вакансии, метрики - фантастическая красота от Саши), затем через скрипт публикуются в Telegram.

⁉️ Как это работает вместе
- Собираем сырые данные вакансий.
- Отправляем их в YGPT по API.
- Получаем JSON, парсим в базу.
- SQL-тесты Ромы проверяют корректность - что всё ОКЕЙ)
- DBT трансформирует данные для дашборда.
- Скрипт публикует визуализации в канал.

Планы и эксперименты
- Статья YGPT vs GigaChatMax: Уже есть кейсы. YGPT быстрее на коротких текстах, но GigaChatMax лучше ловит контекст в длинных описаниях.
- Новые источники: Планируем подключить дополнительные платформы вакансий, чтобы расширить выборку.

Посмотри на наш дашборд анализа зарплатных вилок 👈

Подписаться на аналитику в канале 👈

24.03.2025, 10:08

t.me/joni_in_web/24

Joni in Web

186 assinantes

355

Я — Никита, и мне не хватает 24 часов в сутках 🤪.

Вот дайджест нашего с Сашей (@data_bar) проекта по зарплатным вилкам IT. Что нового за неделю и зачем:

- API на Flask + MongoDB и Geekjob для внешних данных
Поднял API на Flask с JWT-токенами, развернул MongoDB и подключил третий агрегатор — Geekjob. Теперь внешние источники могут слать вакансии (текст, PDF), а мы парсим их и складываем в Mongo. Зачем? Чтобы собирать больше данных с рынка с хорошей изоляцией от основного хранилища.

- DAG в Airflow: MongoDB → ClickHouse
Написал DAG — тянет данные из MongoDB в ClickHouse, приводит к нужной схеме без движков. Зачем? Чтобы сразу получать чистые данные для аналитики (можно было и через движек таблички в CH, но мне нравится через даг).

- 15 дней истории в дашборде 😎
Увеличили глубину дашборда до 15 дней — теперь можно смотреть динамику зарплат и вакансий. Зачем? Чтобы видеть тренды рынка в реальном времени.

Посмотри на наш дашборд анализа зарплатных вилок 👈

Возможно старовато, но мне нравится draw.io 😏

5.03.2025, 10:26

t.me/joni_in_web/23

Joni in Web

186 assinantes

228

Хабр Карьера — сервис для IT-специалистов из экосистемы Хабра, где можно найти вакансии от джунов до сеньоров, сравнить зарплаты и прокачать навыки. Это площадка с тысячами предложений, калькулятором доходов и рейтингом работодателей.

А теперь давайте посмотрим, как мы с Сашей Варламовым (@data_bar) используем данные с Хабр Карьеры в нашем проекте — свежий дайджест обновлений! 😄

🆕 Что нового в дашборде?

Данные Хабр Карьеры
- Появились вакансии для Junior и Intern, которых раньше не было в Getmatch.

Новые возможности
- Сортировка по разным метрикам в таблице вакансий.
- Логотипы компаний с Хабра — теперь таблицы выглядят нагляднее.
- Прямые ссылки на вакансии прямо из дашборда.

Тренды во времени
- Ежедневные данные, чтобы отслеживать изменения: сколько вакансий, какие зарплаты, какие навыки востребованы.

Что можно сравнить?
- Вакансии и зарплаты на Getmatch и Хабр Карьере: где больше предложений, где выше вилки?
- Категории: Junior/Intern против более опытных позиций.
- Динамику рынка: как меняются спрос на навыки и зарплаты.

*Можно найти вакансии с зарплатами до 2 600 000 рублей (да, такие есть 😠).

Посмотри на наш дашборд анализа зарплатных вилок 👈
.

.

.

.

.

Ты ещё тут? Погнали дальше, расскажу про техчасть 🧑‍💻

Чтобы всё работало стабильно, "совсем чуть-чуть" обновил инфраструктуру:

- Перешли с PostgreSQL на Clickhouse, установленный прямо на VPS. В TimeWeb DBaaS нельзя было настроить подключение между базами — провайдер забирает права суперпользователя ради безопасности, но нам нужен был полный контроль. Настроил на VPS всё с нуля: пользователей, роли, базы, схемы, таблицы, плюс фаервол через мой VPN для защиты.

- Docker, даже с запущенным контейнером ClickHouse без нагрузки, потребляет 20-30% CPU. Это значительный оверхед, особенно для нашего проекта, где ресурсы VPS ограничены. В то же время нативная установка ClickHouse без нагрузки использует всего 5% CPU (да, немного - но пока база не 100GB и дагов мало можем себе позволить).

- Мигрировал вакансии с двух платформ из PostgreSQL в Clickhouse, сохранив структуру для анализа.

- Нашел у себя грубую ошибку в инсерте в БД для Хабр парсер - потерял 4 дня слепков. Хороший урок: проверять всё тщательнее.

- Подрубил ежедневное обновление Google-таблиц через Airflow. Собираю данные с Clickhouse (вьюшки с двух платформ) и раскладываю сущности по разным листам для дашборда — сейчас показываем 8 дней.
При создании таблицы из дага через API Google Sheets наткнулись на проблему: курсы за субботу и воскресенье были пустыми в базе. Теперь это учтено — сохраняем курс с пятницы для выходных, чтобы данные были полными.

- Поднял dbt и приступил к стейджингу. Настроил коннект к Clickhouse, выделил stg-слой с основными сущностями (вакансии, навыки, компании). Сейчас raw-слой — это просто распарсенные данные с платформ. Использую BashOperator в Airflow для ежедневного запуска dbt. На подходе — интеграция Great Expectations, чтобы проверять данные на качество прямо в dbt-пайплайне.

😉 Что дальше?

- Подключить третью платформу.
- Завершить нормализацию данных в dbt.
- Автоматизация унификации данных (LLM для навыков, локаций, названий компаний).
- Попробовать ML для прогноза зарплатных вилок.

25.02.2025, 09:52

t.me/joni_in_web/22

Joni in Web

186 assinantes

7.1 k

GetMatch — это сервис, который помогает IT-специалистам находить работу, а компаниям — закрывать вакансии. В отличие от классических job-бордов, GetMatch сразу показывает зарплатные вилки.

Идея «просто» автоматизировать парсер вакансий зародилась у нас с Сашей Варламовым (канал Саши @data_bar) – как часто бывает, слово «просто» стало началом чего-то действительно масштабного. Сейчас у нас есть полноценная автоматизированная система, которая ежедневно парсит вакансии с GetMatch, загружает их в PostgreSQL, тянет курс рубля и доллара, отправляет отчеты в Telegram и полностью автоматизирует ETL-процесс для аналитики в дашборде.

Поднял Airflow в docker-compose на Timeweb (не реклама, просто нравится админка), чтобы DAG’и можно было запускать и мониторить централизованно. Добавил CI/CD на GitHub Actions, чтобы больше не заходить на виртуалку вручную — всё деплоится автоматически. Был парсер getmatch, но я его переписал под Airflow с Taskflow API. Разделил задачи, сделал их атомарными и настроил on_failure_callback, который отправляет сообщения об ошибках в Telegram-канал. Теперь, если что-то сломается, я узнаю об этом сразу, а не через неделю, когда появится дыра в данных.

База данных PostgreSQL развернута на другом VPS, чтобы разграничить вычисления и хранение данных. Создал таблицы vacancies, vacancy_skills, skills, где skills сразу вынесена в ref-таблицу, чтобы не дублировать текстовые значения. Настроил пользователей и доступы, подключил базу к Airflow. Бэкапы настроены на ежедневное обновление.

Теперь каждая вакансия и навык привязаны к конкретному дню, что позволяет анализировать динамику рынка труда. Каждое утро DAG собирает свежие вакансии, тянет курсы валют и обновляет таблицы, а в Telegram приходит сообщение с итогами работы: сколько вакансий обработано, какие ошибки возникли.

Теперь в дашборде можно:
• Смотреть историю изменения вакансий по дням
• Анализировать время жизни вакансий и скорость закрытия
• Отслеживать корреляцию зарплат с навыками
• Изучать спрос на скиллы в динамике

Раньше были просто “актуальные вакансии”, теперь есть полноценная разбивка по дням, что открывает больше возможностей для анализа.

Посмотри на наш дашборд анализа зарплатных вилок 👈

�� public.tableau.com иногда работает, только под VPN из РФ — держи мой VPN. Выше рассказывал, как разробатывал его в новогодние праздники @ShtormVPNBot 🫂

В планах — развернуть dbt и начать собирать слой трансформаций, чтобы сразу приводить данные в нужный вид для аналитики.

17.02.2025, 10:02

t.me/joni_in_web/21

Os resultados da pesquisa são limitados a 100 mensagens.

Esses recursos estão disponíveis apenas para usuários premium.

Você precisa recarregar o saldo da sua conta para usá-los.

Filtro

Redefinir filtros

Data de publicação

Pesquisar no nome do arquivo

Tipo de mensagem

Repostar

Original

Mensagem excluída

A mensagem não é excluída

Encontre avatares semelhantes

Canais 0

Grau de semelhança

Alta

Título	Assinantes
Nenhum resultado corresponde aos seus critérios de pesquisa