xLSTM для улучшения глубокого обучения с подкреплением в автоматизированной торговле акциями
Title: A Deep Reinforcement Learning Approach to Automated Stock Trading, using xLSTM Networks
Authors: Faezeh Sarlakifar, Mohammadreza Mohammadzadeh Asl, Sajjad Rezvani Khaledi, Armin Salimi-badr
Статья:
https://arxiv.org/abs/2503.09655Код:
https://github.com/NX-AI/xlstmВ данной работе исследуется применение сетей Extended Long Short-Term Memory (xLSTM,
https://t.me/gonzo_ML/2624) в рамках глубокого обучения с подкреплением (deep reinforcement learning, DRL) для автоматизированной торговли акциями. Авторы, затрагивая известные проблемы традиционных LSTM сетей в захвате долгосрочных зависимостей и смягчении исчезновения градиента, особенно в волатильных средах, таких как финансовые рынки, изучают, может ли новая архитектура xLSTM предложить улучшение производительности. Это исследование находится в широкой области алгоритмической торговли, где методы DRL получили признание в качестве многообещающих инструментов для разработки адаптивных торговых стратегий. В предыдущих работах исследовались различные архитектуры нейронных сетей, включая стандартные LSTM, CNN и GRU, в DRL для финансовых приложений. Данная работа отличается тем, что конкретно фокусируется на xLSTM, более новом достижении в рекуррентных нейронных сетях, и оценивает ее эффективность в этой области.
Основной методологический вклад заключается в замене традиционных LSTM-юнитов на xLSTM-юниты в actor и critic сетях агента Proximal Policy Optimization (PPO). Эта замена мотивирована архитектурными достижениями xLSTM, разработанными для решения ограничений, присущих стандартным LSTM. В статье используется общедоступная кодовая база xLSTM (
https://github.com/NX-AI/xlstm) для реализации. Использование PPO, хорошо зарекомендовавшего себя алгоритма DRL, обеспечивает прочную основу. Функция вознаграждения (reward function), подробно описанная в Алгоритме 2, включает индекс турбулентности (turbulence index) для штрафования торговли в нестабильных рыночных условиях, что отражает практическое соображение для управления рисками в финансовой торговле. Индекс турбулентности определен в статье как часть анализа, чтобы избежать торговли в экстремальных ситуациях.
Методология представляется обоснованной, опирающейся на устоявшиеся методы DRL и включающей соответствующие предметно-специфические соображения. Тем не менее, в статье отсутствуют явные детали по критическим аспектам инженерии/реализации, таким как:
* Количество xLSTM слоев в actor и critic сетях.
* Размер ячеек памяти xLSTM (количество юнитов).
* Конкретная конфигурация блоков sLSTM и mLSTM (сколько каждого, и их расположение).
* Значения Dropout (если есть).
* Методы инициализации весов сети.
* Расписания learning rate (как learning rate меняется во время обучения).
* Значения, используемые для ключевых гиперпараметров PPO, таких как clip_range, gamma (фактор дисконтирования), gae_lambda (параметр Generalized Advantage Estimation) и количество эпох PPO.
* Модель транзакционных издержек (как рассчитываются эти издержки).
* Модель исполнения ордеров (исполняется по цене закрытия дня? Моделируется ли проскальзывание?).
* Ограничения (какие-либо ограничения на количество акций, которые можно держать или продавать? Разрешена ли короткая продажа?).
* Фичи, используемые в качестве входа для модели (только данные OHLCV? Используются ли какие-либо технические индикаторы?).
Кроме того, оценка опирается на backtesting с использованием исторических данных, что является распространенной практикой, но предполагает стационарность в динамике рынка, что является потенциально ограничивающим предположением.