InterFormer: Towards Effective Heterogeneous Interaction Learning for CTR Prediction
Сегодня разбираем
статью InterFormer — новую архитектуру для CTR prediction, в которой особое внимание уделено взаимодействию между разными типами признаков.
Модель создавалась при участии соавторов
Wukong, и является её идейным продолжением. В новой статье особое внимание уделяется работе с различными последовательностями, которые можно извлечь из пользовательских логов. Авторы пытаются исправить два недостатка существующих моделей:
1) последовательности уточняются контекстными признаками, но не наоборот;
2) слишком агрессивная агрегация последовательностей.
InterFormer пытается решить обе проблемы с помощью двух ветвей обработки — «глобальной» и «последовательной», — которые обмениваются информацией в каждом новом слое.
В первую ветку попадают всевозможные категориальные и dense-признаки. Эта ветка отвечает за построение взаимодействий признаков, что можно делать несколькими способами: используя факторизационные машины,
DCNv2 или, например,
DHEN.
Вторая ветка предназначена для работы с последовательностями. Сначала данные очищаются с помощью
MaskNet’а, а затем подаются в классический attention-слой.
Ключевая особенность модели — механизм взаимодействия между этими ветками. Из первой ветки во вторую перед attention-слоем приходит обучаемая проекция на элементы последовательности. В свою очередь, из второй ветки в первую передаётся агрегация последовательности, в которую входят CLS-токен, PMA (Pooling by Multihead Attention), а также фиксированное число последних элементов последовательности. Важно, что взаимодействия между признаками в первой ветке считаются уже с учётом этой агрегации, а для сохранения размерностей используются обычные MLP. С помощью такой организации перекрёстного обмена авторы решают сразу обе указанные ими проблемы.
InterFormer тестируется на трёх публичных датасетах и одном крупном внутреннем. На всех задачах он показывает SOTA-результаты, обгоняя как non-sequential-, так и известные sequential-решения.
В отдельном эксперименте авторы показывают, что действительно важен взаимный обмен информацией между ветками. При его (частичном) отключении качество значительно проседает.
Также исследуется масштабируемость InterFormer’а по числу и размерам последовательностей и самой модели — авторы утверждают, что модель хорошо скейлится по всем направлениям.
Наконец, авторы проводят небольшое ablation study, по результатам которого делают вывод, что каждая составляющая предложенной в статье агрегации последовательностей очень важна.
@RecSysChannel
Обзор подготовил ❣ Олег Сорокин