SLMREC: Distilling Large Language Models Into Small For Sequential Recommendation
Сегодня разбираем
статью от исследователей Rutgers University и Ant Group, представленную на ICLR 2025. Авторы предлагают альтернативу тяжёлым LLM в рекомендательных системах. Они доказывают, что для sequential recommendation достаточно компактных моделей, если правильно «дистиллировать» знания из больших LLM.
В статье рассматриваются два подхода интеграции LLM в рекомендательные системы:
— Генеративные методы (G-LLMRec): Модель предсказывает следующий товар как «следующий токен» в последовательности (аналогично генерации текста). Примеры: P5, LLaRa.
— Методы на основе эмбеддингов (E-LLMRec): LLM используется как экстрактор признаков. Последний скрытый слой модели преобразуется в вектор пользователя, который сравнивается с векторами товаров через скалярное произведение. SLMRec относится ко второму типу.
Авторы применяют LLM (говорят о LLaMa-7B) для получения «учителя», а затем дистиллируют его знания в компактную модель через выравнивание промежуточных представлений.
Архитектура и подход
— Используют технику knowledge distillation: большая модель (LLaMa-7B) выступает «учителем», а компактная (в 8 раз меньше) — «учеником».
— Обнаружили, что 75% слоёв в LLM избыточны для рекомендательных задач. Удаление лишних слоёв почти не влияет на качество.
— Вводят тройной механизм переноса знаний между учеником и учителем: выравнивание направлений эмбеддингов (через cosine similarity), регуляризация норм векторов и многоуровневый надзор за скрытыми состояниями. Надзор вкратце такой: слои группируются в блоки, а на выходах каждого блока добавляются «адаптеры», которые проецируют скрытые состояния ученика в пространство учителя. Ученик учится предсказывать выходы всех блоков одновременно, а не только финальный слой.
— Объединяют слои модели в блоки (по 4–8 слоев) для групповой дистилляции — так ученик учится воспроизводить иерархическое представление данных.
— Модель обучается только на позитивных взаимодействиях.
Ключевые фишки
— Эффективность: SLMREC требует всего 13% параметров оригинальной LLM, ускоряя обучение в 6,6 раза, а инференс — в 8 раз.
— Универсальность: метод совместим с другими техниками оптимизации — квантизацией и прунингом.
— Теоретическое обоснование: авторы математически доказали, что многослойные трансформеры избыточны для задач рекомендаций, и их можно заменить оптимизацией одного шага.
Эксперименты на данных Amazon (одежда, фильмы, музыка, спорт) показали, что SLMREC не только догоняет LLM по метрикам (HR@10, NDCG), но иногда даже превосходит — вероятно, за счёт снижения шума в глубоких слоях.
Спорные моменты
— Неясно, как модель адаптируется к cold start — авторы используют предобученные эмбеддинги, но не проверяют сценарий с новыми пользователями или товарами.
— Как именно выбирались слои для удаления? В статье сказано: «экспериментально обнаружена избыточность», но нет чётких критериев. Например, могла быть использована простая эвристика вроде «среднее значение активаций», что не гарантирует оптимальности.
— Метод тестировался только на Amazon-датасетах (одежда, фильмы), где плотность взаимодействий выше, чем в реальных соцсетях. В системах с миллиардами пользователей и «длинными хвостами» нишевого контента (например, TikTok) эффективность SLMREC под вопросом.
— Хотя инференс быстрее в 8 раз, сама дистилляция требует обучения как учителя (LLaMA-7B), так и ученика.
Выводы
Работа предлагает практичный компромисс для продакшена. Однако остаётся вопрос: можно ли масштабировать подход до экосистем с миллиардами айтемов, где даже 1B параметров — уже много? Авторы обещают исследовать few-shot-обучение в будущем.
@RecSysChannel
Обзор подготовил ❣ Елисей Смирнов