Your trial period has ended!
For full access to functionality, please pay for a premium subscription
Message
Интересные статьи третьего дня ICLR 2025

Продолжаем рассказывать о работах на ICLR 2025 по теме рекомендательных систем. Собрали несколько релевантных постеров и коротко пересказали идеи: от симуляции пользователей для обучения LLM до новых бенчмарков на сложные инструкции для ранжирования.

Language Representations Can be What Recommenders Need: Findings and Potentials

Авторы берут граф взаимодействий пользователей и айтемов, с помощью LLM получают вектора для айтемов и пользователей (усредняя эмбеддинги положительных взаимодействий с айтемами). Затем идут «вглубь» до какого-то момента по графу — и получают итоговые вектора.

Дальше нужно откуда-то семплировать негативы: в исследовании просто взяли случайные строки из датасета, с которыми пользователь не взаимодействовал (автор сказал, так поступили, потому что не хватило explicit-фидбэка).

Интересный момент про правый нижний угол постера: промпты для Movielens генерировали через ChatGPT, а потом вручную валидировали (поскольку ChatGPT при генерации мог использовать таргетную информацию).

При этом скоры получились подозрительно высокие — возможно, результат слегка завышен.

Ещё автор сказал, что некоторые компании уже видят профит от подхода, но деталей он не раскрыл.

Bridging Jensen Gap for Max-Min Group Fairness Optimization in Recommendation

Авторы делят датасет на группы (в их случае — жанры фильмов), считают внутри каждой группы лосс и на следующей итерации дают больший вес группе с худшим лоссом.

CoS: Enhancing Personalization and Mitigating Bias with Context Steering

Статья о том, как добавить контекст к выводу LLM без обучения. При этом можно управлять уровнем контекстности (параметром λ). Суть метода — измерять влияние контекста с точки зрения вероятности предсказания токена (с контекстом и без него).

PersonalLLM: Tailoring LLMs to Individual Preferences

Авторы симулировали пользователей, создавая их предпочтения путём усреднения различных reward-моделей, а затем обучили LLM на этих синтетических данных. Деталей обучения не приводят, но на их бенчмарке модель показывает хорошие результаты. Для новых пользователей ищут похожих на основе language space и строят ответы, опираясь на поведение тех, чьи данные были в обучении.

Beyond Content Relevance: Evaluating Instruction Following in Retrieval Models

Исследователи жалуются, что современные модели ранжирования плохо понимают сложные инструкции вроде: «найди статью на турецком в 5 абзацев, написанную простым языком» — по этому поводу собрали бенчмарк.

Рассматривали следующие параметры: пользователь (Audience), поисковые запросы или темы (Keyword), формат отображения (Format), длина ответа (Length), язык (Language), источник информации (Source).

Качество работы моделей оценивали с помощью двух метрик:

- Strict Instruction Compliance Ratio (SICR): бинарная метрика, которая проверяет, что при явном указании условия (например, «документ только на казахском») скор растёт относительно безусловного режима, а при обратном условии («всё кроме казахского») — падает.

- Weighted Instruction Sensitivity Evaluation (WISE): версия метрики, учитывающая изменения позиций в ранжировании.

Лучше всех с задачей справился GPT-4o.

@RecSysChannel

Интересные работы заметили ❣ Маргарита Мишустина, Eldar Ganbarov, Алёна Фомина, Алексей Степанов

#YaICLR
04/26/2025, 16:31
t.me/recsyschannel/95