O seu período de teste terminou!
Para acesso total à funcionalidade, pague uma subscrição premium
RE
Рисерчошная
https://t.me/researchoshnaya
Idade do canal
Criado
Linguagem
Russo
0.33%
ER (semana)
4.08%
ERRAR (semana)

История одного research and develop MLE в RecSys 👀

В закрепе навигации и топ посты #WHOIS

Mensagens Estatísticas
Repostagens e citações
Redes de publicação
Satélites
Contatos
História
Principais categorias
As principais categorias de mensagens aparecerão aqui.
Principais menções
Não foram detectadas menções significativas.
Encontrado 11 resultados
Repostar
7
491
24.04.2025, 17:36
t.me/researchoshnaya/164
Repostar
3
7
466
🎤 Декомпозиция юзера на кластерные сущности

На прошлой неделе прошла конференция Data Fusion, где в кейс-сессии рекомендательных систем мы рассказали как не разориться на инфраструктуре при постоянном росте количества пользователей

Запись сессии

Презентация

❓ Описание

При построении персональных рекомендаций зачастую подразумевается, что мы должны получить для каждого пользователя свою, уникальную подборку товаров. Однако в случае, когда пользователей становится слишком много, а в инфраструктуре товары хранятся с обогащением бизнес-факторами, такая схема становится все менее масштабируема.

Расскажу о том, как мы без просадки в качестве существенно сократили затраты на инфраструктуру за счет кластеризации пользователей и товаров.

💬 Основные тезисы:

- кластеризация пользователей (эмбеддинги WildBERT), создание агрегированной выдачи для кластера

- кластеризация товаров (e5) - выделение интересов, отображение пользователя в пространство интересов

- сравнение АБ-тестов для схем "храним подборку для каждого пользователя" и "храним только кластера, юзера описываем как набор кластеров и интересов" в разрезе ранжирующих метрик и затрат на инфраструктуру

- как в такой схеме не просадить качество - доранжирование по эмбедингам в онлайне в момент формирования выдачи

⏱ Скоро расскажем как выступили на Стачке в Ульяновске, которая также прошла на прошлой неделе
24.04.2025, 17:36
t.me/researchoshnaya/163
Repostar
15
15
967
🛍 Управление разнообразием рекомендаций

Ксюша Малкова, DS команды персонализации, написала статью про методы управления разнообразием на этапе подготовки данных и на пост-процессинге

Якорные товары, квоты, инференс по категориям и немного про Beyond-Accuracy - все тут!
7.04.2025, 17:23
t.me/researchoshnaya/160
37
70
1.3 k
✅ YouTube выкинул item ID и поднял качество рекомендаций. Почему это сработало?

Недавно наткнулся на статью с RecSys 2024 — Better Generalization with Semantic IDs. Ребята из Google Research разобрали, как улучшить рекомендательные системы, чтобы они не тупили на новых или редких объектах.

📥 Проблема старая, как мир
Обычно в РС каждому видео или товару дают случайный ID — просто номерок, за которым стоит эмбеддинг. Модель запоминает, что популярно, и круто ранжирует хиты. Но стоит появиться новому видео или нишевому контенту — всё, привет, она теряется. Почему? Потому что ID ничего не говорит о смысле: два похожих ролика для модели — как чужие. Плюс таблицы эмбеддингов раздуваются до миллиардов строк, а хеширование ID в кучу только добавляет шума.

😊 Что придумали?
Авторы предложили Semantic IDs — коды, которые не просто числа, а отражают содержание. Берут контент видео (аудио, картинку), прогоняют через нейронку (VideoBERT), получают вектор, а потом сжимают его в 8 коротких кодов с помощью RQ-VAE. Главное — похожие видео получают похожие коды. Например, два ролика про котиков будут частично совпадать, и модель это поймет.

Сначала коды генерят и замораживают, а потом пихают в ранжирующую модель YouTube. Есть два варианта: разбить коды на кусочки (N-граммы) или сделать умное разбиение через SentencePiece (SPM). SPM оказался круче — он сам решает, где склеить частые комбинации, а где оставить детали для редких видео.

Тестили на миллиардах видео YouTube. Обычные контентные эмбеддинги без ID провалились — модель забыла популярное. А вот Semantic IDs дали прирост: новые видео (cold-start) стали ранжироваться лучше, редкие тоже, а хиты не пострадали. SPM вообще показал себя звездой — гибко балансирует между запоминанием и обобщением.

⭐ Что это значит?
С такими ID модель не просто зубрит, а понимает связи между контентом. Новое видео про котиков сразу подхватывает опыт старых — и в топ! Плюс экономия памяти: вместо миллиардов эмбеддингов — тысячи осмысленных кодов. Масштабируется на ура.

🌸 Куда дальше?
Можно прикрутить это к профилям юзеров, улучшить кодировщик или даже замиксовать с генеративными рекомендациями. Короче, будущее РС — за умными ID, которые не просто цифры, а смысл.

➡️ Статья тут

Что думаете, зайдет такой подход в реальной жизни?

#RESEARCH #RECSYS
5.04.2025, 13:05
t.me/researchoshnaya/159
4
2
669
❤️ Скучнейший ассистент от ChatGPT

Новый уровень уныния, chatgpt представляет скучнейшего ассистента, который просто существует. Ваш американо на понедельническом

и это все что вам нужно знать…
3.04.2025, 21:30
t.me/researchoshnaya/158
60
32
760
🪬 Я больше не могу молчать. Это зашло слишком далеко.

Как многие из вас знают, последние годы я провёл в академическом ресёрче. В 2024 году, очарованный перспективами, я увлёкся графовыми нейросетями и трансформерами, уверенный, что именно там лежит ключ к будущему рекомендательных систем.

Эти годы я потратил на исследование сверхсложных моделей, публикуясь в журналах уровня A+. Моей основной мотивацией была вера в прогресс и уверенность, что глубокий ресёрч сделает мир лучше. Но недавно я осознал страшную правду.

Главная проблема ресёрча — это отсутствие какой-либо связи с реальностью. Мы проводим эксперименты на тщательно вылизанных и очищенных датасетах, где каждая модель показывает невероятные результаты. Но стоит только перенести её в продакшен, как всё тут же рушится.

Казалось бы, чем сложнее модель — тем она эффективнее. Но единственное, что мы на самом деле получаем — это невозможность её нормального внедрения. Как только приходит время запускать модель на реальных данных, оказывается, что вместо чётких эмбеддингов у нас на выходе какие-то непонятные “вектора-приколы”, которые приводят в ужас разработчиков и аналитиков.

И даже если модель каким-то чудом работает, её вычислительные затраты сопоставимы с бюджетом небольшой страны. Кто будет платить за этот “ресёрч ради ресёрча”?

Самое страшное — это когда модель, наконец, доходит до AB-теста. Тут и выясняется, что на самом деле все эти красивые метрики совершенно ничего не значат. Счастье пользователей, прибыль компании — всё это максимально далеко от тех показателей, которые мы привыкли оптимизировать.

Поэтому я принял важное решение — с меня хватит академического ресёрча. Я ухожу в индустрию, чтобы заниматься настоящими, живыми задачами, видеть результаты своих усилий в реальном времени и делать что-то, что действительно приносит пользу.

Этой осенью я приступаю к работе в компании, где займусь настоящей рекомендательной системой, без абстрактных фантазий и космических расчётов.

Надеюсь, теперь я наконец-то смогу спокойно работать, не думая о том, как объяснить очередному рецензенту, почему мой метод превосходит BERT4Rec на 0.0001%.

Подробности сообщу позже, когда всё окончательно решится…
1.04.2025, 16:56
t.me/researchoshnaya/157
10
2
962
📎 Никогда не рекомендуй дорогие товары, если не умеешь считывать сигналы пользователя

❓Стоя у витрины магазина, вы когда-нибудь задумывались: выбрать товар подешевле или всё-таки вложиться в более дорогой?

Кажется, однозначного ответа на этот вопрос нет. Однако поведение покупателей может рассказать о многом. Важно уметь считывать сигналы, которые пользователи оставляют в своих действиях.

Например, если вы уже положили в корзину новенький MacBook, то ⬇️второй такой же ноутбук вам точно не нужен. Но вот сопутствующие товары — сумка, беспроводная мышь или стильный стакан для кофе — выглядят весьма привлекательными. И это уже важный сигнал: у пользователя есть потребность в аксессуарах, а не в повторении основной дорогой покупки.

С другой стороны, иногда пользователей полезно подтолкнуть к более премиальному сегменту. Допустим, кто-то выбирает кроссовки Nike. ⬆️ Почему бы не предложить ему более дорогую модель или премиальную альтернативу? Возможно, он именно этого и хочет, но ещё не знает об этом.

❤️Интересно ваше мнение на эту тему! Может быть, вы знаете какие-то эффективные методы оценки business-value рекомендаций?
17.03.2025, 18:11
t.me/researchoshnaya/156
1
25
869
📥Какие курсы по рекомендательным системам вы походили или проходите?

Напиши в комментах что вам понравилось, или что не понравилось ⬇️
6.03.2025, 14:00
t.me/researchoshnaya/155
Repostar
1.9 k
РЕТРО СТАТЬЯ — "An Algebra for Recommendations"

В этом канале я публикую разборы ключевых статей по рекомендательным системам и поиску. Ключевые — не значит новые: важнее понимать фундамент, чем гнаться за трендами.

Сегодня разберём одну из первых статей по рекомедациям An Algebra for Recommendations (PDF) Юсси Карлгрена (1990). Статью можно считать первой статьей где задача рекомендацй формализована и отделена от смежных задач. Автор работал в The Royal Institute of Technology and Stockholm University, сейчас — исследователь в Spotify.

Основные идеи статьи:

1️⃣ Первая формальная постановка задачи рекомендаций
Карлгрен впервые формулирует концепцию рекомендательной системы, что подтверждается рядом источников (например, Википедия). Хотя методы пользовательского моделирования существовали ранее, именно он предложил формальную модель рекомендаций на основе взаимодействий.

2️⃣ Рекомендации только по взаимодействиям
Автор сознательно исключает дополнительные характеристики объектов, рассматривая только взаимодействия пользователей (на примере книг). Такой подход до сих пор используется.

3️⃣ Пользователь как вектор прочитанных книг
Карлгрен предлагает представлять пользователя вектором прочитанных книг, что напоминает User-Item матрицу. Однако сама матрица явно не строится.

4️⃣ Явные (explicit) и неявные (implicit) рекомендации
Различает явные оценки и автоматическое отслеживание интереса. Подчёркивает, что пользователи должны иметь возможность корректировать рекомендации, чтобы система не навязывала своё мнение.

5️⃣ Формализация "близости" между объектами через пользовательские оценки
Предлагает вычислять "близость" на основе схожести оценок пользователей, что напоминает Item-Item коллаборативную фильтрацию. Вводит три типа отношений: понравилось, не понравилось, не видел.

6️⃣ Эксперимент (но без подтверждения результатов)
Автор описывает тест с 25 участниками, но неясно, были ли проведены полноценные эксперименты.

7️⃣ Связь с информационным поиском (IR)
Карлгрен использует термины IR (documents, queries) и рассматривает рекомендации как развитие идей поиска. Хотя он публиковался на SIGIR, после 90-х он практически не работал в области рекомендаций.

——————

Хотя ранние идеи рекомендаций существовали, именно эта работа считается первой формальной постановкой задачи. Многие её принципы стали основой современных рекомендательных алгоритмов.

Этот пост опубликован в канале @Recsys_IR_Travel. Если вы читаете его в другом месте, подпишитесь!
5.02.2025, 13:40
t.me/researchoshnaya/148
1.2 k
31.01.2025, 18:56
t.me/researchoshnaya/146
1.2 k
💡Почему DeepSeek обвалил фондовый рынок?

❌ Не потому что DeepSeek лучше по многим бенчмаркам
❌ Не потому что DeepSeek бесплатный для всех пользователей
❌ Не потому что в топе бесплатного AppStore

Все из-за оптимизации! На самом деле весь хайп в том, что модель обучили за 6M долларов, когда OAI тратят Миллиарды.

Масштабирование происходит не за счет увеличение GPU и компьюта (смотрите лекции сиола), А банальная оптимизация RL и Supervised fine-tuning (там же в лекциях найдете).

Немного хайпа в канал
31.01.2025, 18:56
t.me/researchoshnaya/147
Os resultados da pesquisa são limitados a 100 mensagens.
Esses recursos estão disponíveis apenas para usuários premium.
Você precisa recarregar o saldo da sua conta para usá-los.
Filtro
Tipo de mensagem
Cronologia de mensagens semelhante:
Data, mais novo primeiro
Mensagens semelhantes não encontradas
Mensagens
Encontre avatares semelhantes
Canais 0
Alta
Título
Assinantes
Nenhum resultado corresponde aos seus critérios de pesquisa