У вас закончился пробный период!
Для полного доступа к функционалу, пожалуйста, оплатите премиум подписку
ST
Данные на стероидах
https://t.me/sterodata
Возраст канала
Создан
Язык
Русский
0.73%
Вовлеченность по реакциям средняя за неделю
5.62%
Вовлеченность по просмотрам средняя за неделю

Команда VK Cloud о практиках и подходах для извлечения максимальной пользы из работы с данными.

Сообщения Статистика
Репосты и цитирования
Сети публикаций
Сателлиты
Контакты
История
Топ категорий
Здесь будут отображены главные категории публикаций.
Топ упоминаний
Здесь будут отображены наиболее частые упоминания людей, организаций и мест.
Найдено 29 результатов
ST
Данные на стероидах
2 758 подписчиков
5
3
511
Новые рекомендации от технического менеджера Data сервисов VK Cloud

Привет!

Сегодня с нами снова Саша Волынский — наш постоянный эксперт. Если на этой неделе вы прочитаете только два материала про LLM и AI, то пусть это будут две статьи про AGI и OpenAI.

Далее — цитата Саши.

🔹 On Jagged AGI: o3, Gemini 2.5, and everything after

Действительно интересный взгляд на текущее состояние AI. Описывается смелая идея: возможно, AGI уже здесь, просто не в той форме, на которую мы рассчитывали. Эта форма интеллекта — сверхчеловеческая в одних областях и удивительно слабая в других — возможно, и есть тот AGI, который мы получим и который мы заслужили. Нужен ли нам вообще «идеальный» AGI или текущие слабости как раз делают AI более дополняющим человеческий интеллект, чем заменяющим его?

Читать про AGI

🔹 Vibe Check: OpenAI’s o3, GPT-4.1, and o4-mini

Если вы запутались в бесконечных релизах OpenAI, то эта статья для вас. Не просто сравнение характеристик новых моделей, но и примеры использования. Мне больше всего понравилась часть с отзывами реальных пользователей.

Разобраться в последнем релизе OpenAI
22.04.2025, 14:08
t.me/sterodata/214
ST
Данные на стероидах
2 758 подписчиков
5
8
542
KARPOV.CONF 2025: как данные помогают бизнесу

Наши друзья из karpov.courses зовут на KARPOV.CONF 2025, которая пройдет 24 апреля в 12:00 по Москве.

Это будет бесплатная онлайн-конференция для всех, кто работает с данными и хочет узнать, как с их помощью растить бизнес, принимать решения и находить точки роста. На ней выступят спикеры от Яндекса, МТС и Райффайзен Банка, которые поделятся кейсами из своей практики.

Что еще будет в программе:

🔹 Обсуждение актуальных тем и трендов — в том числе, машинное обучение и Deep Learning.
🔹 Лучшие практики, советы от экспертов и рекомендации, как избежать распространенных ошибок при работе над BI-проектами.
🔹 Шанс выиграть менторскую сессию с Анатолием Карповым и бесплатные материалы по Data Science: гайды, подборки ресурсов, инструменты.

➜ Читайте подробную программу конференции и регистрируйтесь
18.04.2025, 18:25
t.me/sterodata/213
ST
Данные на стероидах
2 758 подписчиков
13
16
656
Миф о дешевом железе: полный расчет стоимости КХД для облака и локальных решений

В свежей статье на Хабре от VK Tech и Arenadata разобрали на цифрах, сколько на самом деле стоит построить корпоративное хранилище данных:

🔹 сравнили On-prem и облако;
🔹 посчитали стоимость владения с поправкой на инфляцию;
🔹 учли утилизацию ресурсов;
🔹 а в финале — добавили чеклист нефинансовых критериев и матрицу для выбора платформы.

Советуем почитать материал до столкновения с «реальностью локального КХД». Особенно, если планируете КХД с мыслью «вложимся сейчас, потом будет дешево».

➜ Читайте статью на Хабре
18.04.2025, 12:48
t.me/sterodata/212
ST
Данные на стероидах
2 758 подписчиков
25
11
611
16.04.2025, 18:24
t.me/sterodata/211
ST
Данные на стероидах
2 758 подписчиков
1
IMG_4534.MP4
16.04.2025, 18:22
t.me/sterodata/210
ST
Данные на стероидах
2 758 подписчиков
12
15
647
В Москве сейчас проходит международная конференция Data Fusion. Екатерина Канунникова, руководитель направления Data Services VK Tech, приняла участие в панельной дискуссии «Data Lakehouse, DWH и Data Lake: битва архитектур».

Общий фокус беседы можно охарактеризовать как поиск решения для работы с большими данными на следующие 5-8 лет. С одной стороны, Data Lakehouse выглядит новым эволюционным шагом развития технологий. С другой — для ряда задач все еще подходят Excel-таблицы.

Эксперты обменялись опытом разделения Storage & Processing, обсудили популярность инструментов, использование вендорских решений, а также, за что приходится платить при выборе Open Source.

Мы попросили Екатерину дать небольшой комментарий по горячим следам дискуссии.
16.04.2025, 18:22
t.me/sterodata/209
ST
Данные на стероидах
2 758 подписчиков
9
2
455
Новости от технического менеджера Data сервисов VK Cloud

Привет!

Сегодня новостями и своим мнением о них делится Саша Волынский — наш постоянный эксперт. Далее — его цитата.

Из всех последних новостей относительно LLM/AI я бы выделил две от Google.

🔹 Новые TPU

Представлены новые TPU, заточенные специально под инференс: Ironwood может выдавать до 4,614 TFLOPs вычислительной мощности на пике согласно внутренним тестам Google.

Каждый чип имеет 192GB выделенной памяти с пропускной способностью до 7,4 Tbps.

Это продолжение важного тренда разработки и внедрения специализированных чипов. Моя ставка — именно повсеместное внедрение TPU позволит запускать большие LLM дешево и эффективно. Кстати, цены на последние LLM от Google как раз очень невысокие по сравнению с конкурентами. Вполне возможно, что именно экспертиза в TPU позволила Google Cloud Platform удерживать низкие цены на передовые модели.

➜ Читайте подробнее про TPU

🔹 Firebase Studio

Представлен сервис Firebase Studio, который позволяет разрабатывать приложения с помощью LLM и сразу деплоить их. То есть, вы получаете не просто код или лапшу из кода, а готовый сервис.

Это еще один важный тренд, который определит будущее LLM провайдеров. Не так важно, насколько сильная у вас модель. Скорее всего, в скором будущем большинство моделей будут достаточно умными для типовых задач. Вопрос в том, как из модели получить сервис и решение задач разработчика, аналитика, маркетолога и т.д. На мой взгляд, это вопрос интеграций, поддержки, отладки.

Firebase Studio в этом плане — отличный пример продукта будущего. И мне кажется, это только начало эры похожих сервисов.

➜ Читайте подробнее про Firebase Studio

Делитесь мнением в комментариях, а еще читайте статьи Саши на Хабре. Одна из недавних — «Возможности LLM и RAG на примере реализации бота для поддержки клиентов».

Хороших выходных!
11.04.2025, 18:52
t.me/sterodata/208
ST
Данные на стероидах
2 758 подписчиков
6
17
521
Вебинар: Оптимизируем работу со Spark и строим рекомендательные системы

Многие рекомендательные системы строятся на Spark, но при обработке больших данных с ним часто возникают проблемы. Кроме этого, это недешевое решение.

На бесплатном вебинаре 15 апреля в 17:00 расскажем, как оптимизировать работу со Spark, и в реальном времени обучим модель, чтобы показать эффективность нашего подхода.

➜ Зарегистрироваться

Что еще обсудим

🔹 Как выстроить архитектуру для рекомендательных систем в облаке, On-premise или гибриде.
🔹 Как оптимизировать расходы и работу со Spark.
🔹 Workshop: как в облачном Spark сделать рекомендательную систему для определения степени рисков ишемической болезни сердца.

Кому будет полезен вебинар

🔹 ML-инженерам.
🔹 Архитекторам, Data-инженерам, Data-аналитикам.
🔹 Руководителям ML-направлений и Data-офисов.

➜ Зарегистрироваться
8.04.2025, 17:25
t.me/sterodata/207
ST
Данные на стероидах
2 758 подписчиков
11
20
577
Объектное хранилище S3: практическое руководство

Станислав Погоржельский, технологический евангелист VK Cloud, рассказывает, как развернуть объектное хранилище, загрузить файлы и управлять ими. Кроме этого, показывает сценарии использования Object Storage и делится парой не самых очевидных фичей.

Что внутри

🔹 Поговорим про основные принципы работы.
🔹 Подготовим окружение.
🔹 Проведем настройку бакета для медиафайлов.
🔹 Разберемся с публичным доступом к файлам.
🔹 Создадим и загрузим бэкап PostgreSQL.
🔹 Проверим версионность бакета (да, и такое есть).
🔹 Проведем архивирование файлов с помощью cron.

Оставляйте свои вопросы в комментариях, мы обязательно ответим.

➜ Читайте статью на Хабре
2.04.2025, 18:24
t.me/sterodata/206
ST
Данные на стероидах
2 758 подписчиков
12
10
432
Дайджест полезных статей

Две недели прошли так быстро, но вот опять та самая пятница, когда мы врываемся с новой подборкой классных материалов, которые вы могли случайно пропустить. 

Русскоязычные источники

🔹 GreenOps — ключ к успеху там, где FinOps терпит неудачу 
🔹 Как нейросеть мне приложение писала
🔹 «10 землекопов vs экскаватор» или как подойти к оценке кейса по замене систем планирования и прогнозирования в ритейле? 
🔹 Propensity Score Matching (PSM): как обойтись без A/B-теста и всё равно узнать правду 
🔹 Всё, что вам нужно знать о MCP (Model Context Protocol) от Anthropic
🔹 Картель влиятельных датасетов в обучении ИИ
🔹 Объектное хранилище S3: практическое руководство без лишних слов 

Англоязычные источники

🔹 Talk to Videos | Towards Data Science 
🔹 Attractors in Neural Network Circuits: Beauty and Chaos | Towards Data Science
🔹 Testing the Power of Multimodal AI Systems in Reading and Interpreting Photographs, Maps, Charts and More | Towards Data Science
🔹 A Clear Intro to MCP (Model Context Protocol) with Code Examples
🔹 From Fuzzy to Precise: How a Morphological Feature Extractor Enhances AI’s Recognition Capabilities

Ставь большой палец вверх, если тоже сначала прочитал «Каратель влиятельных датасетов» 👍
28.03.2025, 18:29
t.me/sterodata/205
ST
Данные на стероидах
2 758 подписчиков
8
15
581
Приглашаем на VK Cloud Conf 2025 — главную облачную конференцию VK Cloud

⏰ Дата: 26 июня 2025 года, 10:00
📍 Место: Офлайн в Москве + онлайн-трансляция

Обучение LLM, Гибридные облака, эффективное хранение и обработка данных — ключевые технологические тренды 2025 года. На большой конференции VK Cloud Conf 2025 мы обсудим главные направления развития и расскажем про современные подходы к построению архитектур, безопасность и отказоустойчивость.

Спикеры из VK Cloud и наши партнеры расскажут о реальных кейсах и поделятся планами на будущее.

Что в программе

🔹 Как создать LLM на основе чувствительных данных, если не хватает ресурсов.
🔹 Как уменьшить стоимость хранения и сделать аналитику в ритейле быстрее в 10 раз. Кейс перехода сети супермаркетов на облачный Data LakeHouse.
🔹 Как с российским облаком работать за границей — на примере ритейлера в Казахстане.
🔹 Кейсы On-premise-решений: отказоустойчивость, масштабирование и управление ИТ-инфраструктурой в крупных компаниях.

Присоединяйтесь к своим коллегам по рынку на VK Cloud Conf — узнайте о проверенных облачных технологиях и решениях для работы с данными.

Полная программа и регистрация на конференцию
27.03.2025, 18:11
t.me/sterodata/204
ST
Данные на стероидах
2 758 подписчиков
11
12
659
Как мы учили «1С: Предприятие» работать с объектным хранилищем S3: предпосылки, алгоритм, результат

Рассказываем, как компания «ЦЛР ГРУПП» перестраивала работу «1С:Управление торговлей» с локального дискового хранилища на S3. В этом кейсе мы решали сразу несколько проблем: высокий риск потери данных, отсутствие четкой иерархии, неудобное масштабирование. Со всем этим помогло справиться S3-совместимое хранилище Object Storage. О том, что мы для этого предприняли, читайте материал.

Что внутри

🔹 Как найти решение для работы с динамично увеличивающимся объемом данных.
🔹 Преимущества S3 для конкретного бизнеса.
🔹 Поиск инструментов, подбор модулей и подготовка миграции.
🔹 Что пришлось докручивать, чтобы обуздать хаос.

➜ Читать статью на Хабре
26.03.2025, 18:27
t.me/sterodata/203
ST
Данные на стероидах
2 758 подписчиков
14
12
641
Тренды рынка IT-специалистов

Пока в одном лагере боятся, что ИИ всех заменит, в новом отчете ВЭФ приводится любопытная статистика. В течение следующей пятилетки прогнозируется быстрый рост вакансий для специалистов по ИИ и машинному обучению (+82%). Большой вклад в появление новых рабочих мест внесет также расширение цифрового доступа.

Как изменится спрос на специалистов в следующие пять лет:

🔹 по работе с большими данными (+113%);
🔹 управлению безопасностью (+53%);
🔹 хранилищам данных (+49%);
🔹 интернету вещей (+42%);
🔹 разработчиков ПО и приложений (+57%);
🔹 UX/UI-дизайнеров (+48%);
🔹 аналитиков данных (+41%).

Очевидно, что тренд на разработку, связанную с большими данными и обучением моделей, будет сохраняться еще несколько лет. Вывод тут простой: дружите с ИИ и не забывайте заглядывать в наш канал за новостями.

Меняем полезности на ваши ❤️ в реакциях :)
21.03.2025, 19:11
t.me/sterodata/202
ST
Данные на стероидах
2 758 подписчиков
7
5
520
Оптимизация промышленных видеокарт для машинного обучения и нюансы тюнинга

Чтобы эффективно осваивать вложенные в покупку или аренду GPU ресурсы, важно использовать весь потенциал видеокарт. Первые сложности возникают при настройке оборудования в контексте его максимальных возможностей. Что с этим делать, если предстоит работать с большими данными и глубоким обучением?

В новой статье Стас Погоржельский, технологический евангелист VK Cloud, рассказал про особенности настройки и оптимизации четырех популярных GPU.

Что внутри

🔹 Особенности настройки A30, A100, L4 и L40s.
🔹 Области применения и потенциал для обучения.
🔹 Драйверы, библиотеки и команды для базовой оптимизации.
🔹 Преимущества, ограничения и риски разгона видеокарт.

➜ Узнайте больше про возможности GPU в новой статье на Хабре
18.03.2025, 18:38
t.me/sterodata/201
ST
Данные на стероидах
2 758 подписчиков
16
9
528
Дайджест полезных статей

Привет! Мы решили делать подборки материалов более разнообразными, чтобы полезного контента хватало на все выходные. Карта OpenSource инструментов показалась нам особенно полезной, поэтому рекомендуем сразу положить текст в закладки.

Русскоязычные источники

🔹 Психология разработки: как когнитивные искажения влияют на архитектурные решения и качество кода (часть 2)
🔹 Зачем бизнесу нужно DWH и как обосновать необходимость проекта? Можно ли оценить окупаемость хранилища?
🔹 Подробная карта OpenSource инструментов для создания AI агентов
🔹 Промпт-инжиниринг: от базовых принципов к научно обоснованным стратегиям

Англоязычные источники

🔹 Mastering Hadoop, Part 1: Installation, Configuration, and Modern Big Data Strategies и Mastering Hadoop, Part 2: Getting Hands-On — Setting Up and Scaling Hadoop | Towards Data Science
🔹 Are You Still Using LoRA to Fine-Tune Your LLM? | Towards Data Science
🔹 How to Make Your LLM More Accurate with RAG & Fine-Tuning | Towards Data Science
🔹 Overcome Failing Document Ingestion & RAG Strategies with Agentic Knowledge Distillation | Towards Data Science
🔹 Generative AI Is Declarative | Towards Data Science
🔹 LLaDA: The Diffusion Model That Could Redefine Language Generation | Towards Data Science
🔹 Leveraging BigQuery JSON for Optimized MongoDB Dataflow Pipelines - Google Developers Blog
🔹 Semantic Telemetry: Understanding how users interact with AI systems - Microsoft Research
🔹 How Google Does It: Red teaming at scale

Ставьте 🔥, если хотите, чтобы мы продолжали делать такие большие подборки.
14.03.2025, 18:28
t.me/sterodata/200
ST
Данные на стероидах
2 758 подписчиков
7
4
647
VK Tech выходит на Хабр

VK Tech продолжает расти и развиваться. В нашей команде более 1400+ сотрудников, 20+ продуктов входят в реестр отечественного ПО, а еще мы получили статус одной из самых быстрорастущих ИТ-компаний России. Каждую неделю у нас происходит много всего интересного, о чём хочется активно рассказывать.

Мы запускаем блог на Хабре, где будем делиться нашими знаниями и опытом в области облачных технологий, аппаратного обеспечения, данных, Kubernetes и LLM.

Все этапы верификации пройдены, первая публикация уже ждет читателей. В ней мы подробно освещаем InnerSource-хакатон, делимся собранными идеями и объявляем победителей.

➜ Подписывайтесь на блог VK Tech на Хабр
13.03.2025, 18:31
t.me/sterodata/199
ST
Данные на стероидах
2 758 подписчиков
6
14
745
Как DeepSeek работает с базами данных

За последний месяц нейросеть DeepSeek привлекла к себе много внимания: ее версия V3 сравнялась с GPT-4o в тестах по математике и программированию, а сама модель стала самой мощной open-source языковой моделью в Китае.

Но самый интересный для нас вопрос — как она работает с данными?

В отличие от традиционных языковых моделей DeepSeek использует архитектуру Mixture of Experts (MoE), где задействуются не все 671 млрд параметров, а только 37 млрд одновременно. Она анализирует данные через нейросетевые алгоритмы, выявляя паттерны и генерируя аналитические выводы. Например, в режиме DeepThink модель разбивает сложные задачи на шаги, проверяя каждое логическое звено.

Ее главная особенность — способность извлекать и анализировать данные из множества источников, формируя таблицы с подробными характеристиками объектов.

Технически DeepSeek работает через многошаговый конвейер, начиная с построения плана поиска, затем анализируя документы, выделяя ключевые сущности и формируя итоговую базу знаний.

DeepSeek интегрирована с фреймворками вроде SGLang, которые в разы ускоряют обработку запросов за счет FP8-квантования и распределенных вычислений. Модель может генерировать SQL-код для анализа баз данных.

➜ Подробней про модель, результаты тестирования и локальный запуск читайте на GitHub
7.03.2025, 18:08
t.me/sterodata/198
ST
Данные на стероидах
2 758 подписчиков
14
6
640
«РИВ ГОШ» строит корпоративное хранилище данных на базе облачного сервиса Arenadata DB в VK Cloud

Компания столкнулась с задачей объединить данные из 250 розничных магазинов и десятка корпоративных систем. Нужно было создать единую платформу для сбора отчётности и принятия решений на основе данных.

Решить задачу помог управляемый облачный сервис Arenadata DB на базе VK Cloud вместе с системой бизнес-аналитики «Дельта BI» от Navicon.

Как итог — одно решение привело к ряду преимуществ. Считаем, что получила компания «РИВ ГОШ»:

👉 Конфиденциальность данных за счет реализации многоуровневой модели разграничения доступа.

👉 Собственную методологию расчета оперативной себестоимости готовой продукции для анализа продаж.

👉 Чековую аналитику, аналитику оборачиваемости, складских запасов, посещаемости розничных магазинов и веб-сайта, а также клиентскую аналитику.

👉 Инструменты анализа данных для оценки состояния компании, трендов развития и зависимости исследуемых бизнес-параметров.

➜ Читайте полную историю в большом кейсе «РИВ ГОШ» на нашем сайте
4.03.2025, 18:15
t.me/sterodata/197
ST
Данные на стероидах
2 758 подписчиков
5
19
498
Три статьи и один вебинар про хранение данных

Привет!

По традиции собрали несколько полезных тематических материалов, которые вышли на Хабре на этой неделе.

🔹 Как не утонуть в данных: выбираем между DWH, Data Lake и Lakehouse

🔹 Как устроен T-RAID — RAID-массив в СХД TATLIN

🔹 Трансформация платформы данных: от пары кубов до хранилища > 30 Тб и 1000 ETL-процессов

В продолжение темы хранения данных делимся записью вебинара «Используем S3 на максимум. Как построить эффективное и устойчивое объектное хранилище».

🔹 Смотрите запись в нашем паблике.

👉🏻 Подписаться на телеграм-канал «Данные на стероидах»

#дайджест #ликбез
28.02.2025, 16:45
t.me/sterodata/196
ST
Данные на стероидах
2 758 подписчиков
29
8
519
Квантовые новости: вторая серия

Громкое заявление Microsoft о новом квантовом чипе не только разделило наших подписчиков на два лагеря — сторонников и скептиков новой технологии. Но и пробудило научное сообщество. Учёные-физики не верят в прорывные возможности чипа.

Основные аргументы:

🔹 Отсутствие независимых доказательств — Microsoft не предоставила проверяемых данных о работе майорановских кубитов, а её прошлые исследования уже подвергались сомнению (например, статья 2018 года, позже отозванная из Nature).

🔹 Физические ограничения — концепция майорановских частиц остаётся гипотетической, а их поведение в квантовом чипе Microsoft пока не доказано. Нельзя создать технологию на том, что ещё не открыто.

Сама компания комментариев не даёт, ссылаясь на защиту интеллектуальной собственности и своевременность публикации результатов.

В ожидании третьей серии квантовых новостей проверим, не изменилось ли соотношение сторон ↓

👍 — с детства за квантовые технологии
😀 — будут доказательства, поговорим
25.02.2025, 10:59
t.me/sterodata/195
ST
Данные на стероидах
2 758 подписчиков
20
6
620
Квантовые новости

Microsoft представила квантовый чип Majorana 1 с новой топологической архитектурой ядра. Технология разработана на топологическом состоянии материи. Оно образуется в совершенно новом классе материалов — топопроводниках.

Чип прокладывает путь к разработке квантовых систем, которые могут масштабироваться до миллиона кубитов и способны решать самые сложные промышленные и социальные проблемы.

Как это повлияет на работу с данными?

Квантовые компьютеры смогут значительно ускорить анализ больших данных. С помощью одного миллиона кубитов можно будет решать задачи, которые сегодня требуют работы всех существующих компьютеров одновременно.

Пока реальные квантовые базы данных — дело будущего, но уже в ближайшие годы технология может изменить аналитические и AI-инструменты.

Больше интересного про квантовые технологии

🔹 Чип Microsoft Majorana 1 прокладывает новый путь для квантовых вычислений (на английском языке)

🔹 Достижения технологических лидеров в области квантовых вычислений

🔹 Не пора ли переходить на постквантовые криптоалгоритмы уже сейчас

🔹 Перспективы квантовых вычислений с использованием многоуровневых систем

Что думаете про квантовые технологии?

👍 — наше будущее
😀 — фантазии учёных

👉🏻 Подписаться на телеграм-канал «Данные на стероидах»

#дайджест #ликбез
21.02.2025, 14:36
t.me/sterodata/194
ST
Данные на стероидах
2 758 подписчиков
15
13
628
Запустили первый в России облачный Data Lakehouse

VK Cloud стала первой в России облачной платформой с возможностью построить корпоративный Data Lakehouse.

Data Lakehouse работает на управляемых облачных сервисах VK Cloud:

🔹 Cloud Storage — S3-совместимое объектное хранилище собственной разработки,

🔹Cloud Trino — высокопроизводительный SQL-движок на базе Kubernetes.

Cloud Trino позволяет сократить время на ETL-процессы, ускорить обработку сырых данных, легко построить Self-Service-аналитику и получить ценные инсайты в реальном времени.

Преимущества для пользователей VK Cloud:

🔹 современный стек для работы с крупными проектами,

🔹 оплата только за фактически потребленные ресурсы,

🔹 нет необходимости покупать лицензии.

Узнать подробнее
18.02.2025, 14:40
t.me/sterodata/193
ST
Данные на стероидах
2 758 подписчиков
10
49
648
Про Trino — статьи и видео

Привет!

На вебинаре во вторник мы рассказали про Trino.

Смотрите вебинар

Самое время вспомнить наш летний дайджест, посвященный этой теме.

Статьи на русском

🔹 Почему Trino такой быстрый: динамические фильтры

🔹 Почему Trino такой быстрый: архитектура оптимизатора SQL-запросов

🔹 Как устроен massively parallel processing (MPP) в Trino

🔹 Обращаемся к Apache Hive через Trino: архитектура движка и принцип действия коннектора

Статьи на английском

🔹 Trino versus Apache Spark

🔹 Deploy MinIO and Trino with Kubernetes

🔹 The Best Data Transformation Tools for Trino

🔹 Use Trino with Dataproc

🔹 Enabling Highly Available Trino Clusters at Goldman Sachs

🔹 Trino Architecture

Видео

🔹 Как пересесть на Trino после Vertica: реальный кейс Авито

🔹 Роль Trino в Тинькофф: использование встроенных возможностей, собственные доработки и future work

🔹 Как устроено выполнение SQL-запросов в Presto/Trino

🔹 Trino Fest 2024 — 13 докладов

👉🏻 Подписаться на телеграм-канал «Данные на стероидах»

#дайджест #ликбез #trino
14.02.2025, 18:09
t.me/sterodata/192
ST
Данные на стероидах
2 758 подписчиков
7
8
639
Всем привет!

Через 15 минут начинаем трансляцию вебинара «Поднимаем Data Lakehouse на основе Trino в облаке».

Ссылка на просмотр
11.02.2025, 16:48
t.me/sterodata/191
ST
Данные на стероидах
2 758 подписчиков
9
13
769
Всем привет от команды Tarantool!

За 3 года мы прошли путь от заказной разработки инструментов выгрузки/загрузки данных из различных СУБД до вывода на рынок коробочного продукта класса Data Transfer в составе линейки продуктов Tarantool.

Хотите из первых уст узнать, как из набора коннекторов и in-memory очереди спроектировать отказоустойчивый и производительный инструмент управления CDC-потоком?

Приходите в этот четверг — 13 февраля — на вебинар по продукту Tarantool Change Data Capture от VK Tech. Мы расскажем и покажем real-time репликацию данных.

Подробности и регистрация
10.02.2025, 13:36
t.me/sterodata/190
ST
Данные на стероидах
2 758 подписчиков
5
49
802
Про DLH и Trino. Статьи и вебинар 11.02

Привет!

Собрали пятничный #дайджест про Data Lakehouse и Trino. Читайте статьи и приходите на наш вебинар.

🔹 Нужна ли нам Lakehouse архитектура?

🔹 Быстрая обработка данных в data lake с помощью SQL

🔹 Платформа данных в хранилище Магнит OMNI

🔹 Как устроен massively parallel processing (MPP) в Trino

🔹 Почему Trino такой быстрый: динамические фильтры

🔹 Почему Trino такой быстрый: архитектура оптимизатора SQL-запросов

Вебинар «Поднимаем Data Lakehouse на основе Trino в облаке»

11 февраля в 17:00 мы разберем, что такое Data Lakehouse. Узнаем, как эта архитектура объединяет преимущества DLH и DWH, чтобы упростить управление, удешевить хранение и ускорить анализ данных из различных источников в одном месте.

На примере в лайв-режиме покажем различия в стоимости и скорости работы DLH и DWH.

Ведущий — Алексей Белозерский, руководитель группы BigData Services VK Cloud.

Подробности и регистрация

Хорошего чтения и приятных выходных!

👉🏻 Подписаться на телеграм-канал «Данные на стероидах»

#дайджест #ликбез #Data #AI
7.02.2025, 18:54
t.me/sterodata/189
ST
Данные на стероидах
2 758 подписчиков
3
3
596
От космоса к искусственному интеллекту

Привет!

На связи Стас Погоржельский — технологический евангелист в VK Cloud. И это моя рубрика «Записки облачного Стаса». В ней я даю комментарий, соглашаюсь, не соглашаюсь и всячески высказываюсь на разные темы. Сегодня — про LLM и космос.

3 февраля 1966 года, 59 лет назад, советская автоматическая станция «Луна-9» впервые в истории совершила мягкую посадку на поверхность Луны. Аппарат проработал 75 часов, провел семь сеансов связи и передал на Землю первые телевизионные панорамы лунного ландшафта.

Этот успех стал важнейшей вехой в освоении космоса, доказав, что поверхность Луны достаточно твердая для посадки. Он также подготовил почву для будущих пилотируемых миссий, включая программу «Аполлон» в США и дальнейшие советские исследования Луны.

Как и освоение космоса, развитие больших языковых моделей (LLM) началось с фундаментальных прорывов.

🔹 2017 год — Transformer: архитектура, положившая начало современным LLM. Без нее не было бы GPT, BERT и других моделей.

🔹 2018 год – BERT (Google): первая двунаправленная модель, которая значительно улучшила понимание контекста текста.

🔹 2020 год – GPT-3 (OpenAI): первая модель, показавшая, что LLM может выполнять широкий спектр задач без специальной донастройки.

Сегодня появилось множество мощных языковых моделей, каждая со своими уникальными особенностями. Что выбрать — GPT-4o или DeepSeek? Советуем почитать разбор на Хабре.

А если хотите самостоятельно протестировать модели и разобраться, как автоматизировать их использование, рекомендуем гайд «Оценка систем LLM: основные метрики, бенчмарки и лучшие практики».

#ЗапискиОблачногоСтаса
3.02.2025, 17:38
t.me/sterodata/188
ST
Данные на стероидах
2 758 подписчиков
20
120
1.5 k
Архитектуры хранилищ данных: Data Lakehouse и Data Warehouse

Привет!

Читайте наш традиционный пятничный #дайджест. Собрали статьи при архитектуры хранилищ данных.

🔹 Data Warehouse, Data Lake, Data Lakehouse, Data Fabric, Data Mesh – что это такое, и в чем разница между концепциями

🔹 Хранилище данных vs. Data Lake. Или почему важно научиться ходить перед тем, как начать бегать

🔹 Вредные советы при построении Аналитики (Data Lake / DWH / BI) – целеполагание и результаты

🔹 Вредные советы при построении Аналитики (Data Lake / DWH / BI) – чего стоит избегать

🔹 Современные типы архитектуры данных: Погружение в различные подходы к построению хранилищ данных

🔹 Дорожная карта миграции большого хранилища данных

🔹 Как благодаря переезду хранилища данных прокачать стек, архитектуру и скиллы команды

🔹 Хранилище данных пугает бизнес: проблемы DWH для бизнеса

Хорошего чтения и приятных выходных!

👉🏻 Подписаться на телеграм-канал «Данные на стероидах»

#дайджест #ликбез #Data #AI
31.01.2025, 18:18
t.me/sterodata/187
ST
Данные на стероидах
2 758 подписчиков
6
9
501
ML-тренды информационной безопасности в 2025 году

Защита данных с помощью машинного обучения — не просто модный тренд, а настоящий арсенал для борьбы с угрозами. ML-алгоритмы выступают в роли цифровых детективов, которые ищут аномалии, ловят утечки данных и охраняют конфиденциальность. Если представить, что данные — это сокровище, то ML — это ИИ-сундук, который не только следит за содержимым, но и предсказывает, кто может попытаться его взломать.

Ниже — примеры и подходы защиты данных с помощью ML.

Обнаружение аномалий (Anomaly Detection)
ML-модели могут анализировать поведение пользователей, сетевой трафик или доступ к данным, чтобы выявлять подозрительные действия, которые могут указывать на атаки или утечки.

Примеры использования
🔹 Обнаружение несанкционированного доступа к данным.
🔹 Выявление аномального сетевого трафика (например, DDoS-атаки).
🔹 Мониторинг поведения пользователей для выявления внутренних угроз.

Методы
🔹 Кластеризация (например, k-means, DBSCAN).
🔹 Автоэнкодеры (Autoencoders) для поиска отклонений от нормальных паттернов.
🔹 Изолирующий лес (Isolation Forest) или One-Class SVM.

Защита конфиденциальности данных
ML может использоваться для обеспечения конфиденциальности данных, например, путем анонимизации или генерации синтетических данных.

Примеры использования
🔹 Генерация синтетических данных, которые сохраняют статистические свойства реальных данных, но не содержат личной информации.
🔹 Анонимизация данных с использованием методов дифференциальной приватности (Differential Privacy).
🔹 Шифрование данных с использованием ML-алгоритмов.

Методы
🔹 Генеративно-состязательные сети (GAN) для создания синтетических данных.
🔹 Методы дифференциальной приватности, интегрированные в ML-модели.
🔹 Алгоритмы Federated Learning для обучения моделей на распределенных данных без их передачи.

Прогнозирование угроз
ML может использоваться для прогнозирования будущих угроз на основе исторических данных.

Примеры использования
🔹 Прогнозирование кибератак на основе анализа трендов.
🔹 Оценка рисков утечек данных.
🔹 Прогнозирование уязвимостей в системах.

Методы
🔹 Анализ временных рядов (ARIMA, Prophet).
🔹 М основе графов (Graph-based ML) для анализа связей между угрозами.
🔹Ансамбли моделей для повышения точности прогнозов.

Чтобы детально ознакомиться с ML-трендами информационной безопасности, смотрите отчёт OWASP Top 10 for LLM Applications 2025.
29.01.2025, 19:06
t.me/sterodata/186
Результаты поиска ограничены до 100 публикаций.
Некоторые возможности доступны только премиум пользователям.
Необходимо оплатить подписку, чтобы пользоваться этим функционалом.
Фильтр
Тип публикаций
Хронология похожих публикаций:
Сначала новые
Похожие публикации не найдены
Сообщения
Найти похожие аватары
Каналы 0
Высокий
Название
Подписчики
По вашему запросу ничего не подошло