🎓 Кафедра · Разбор #2: почему я бросил предсказывать цену

В прошлый раз прошёл путь от БРИКС до прогнозов волатильности и упомянул, что в какой-то момент сместил интерес от прогноза цены к прогнозу волатильности. Сегодня раскрою почему именно, и какие грабли собрал по дороге 👀

Почему цену не получилось

Самая естественная идея для любого кто приходит в количественные финансы: давай предскажем направление цены. Накидаем фич, обучим модель, будем знать будущее.

В работе по факторному инвестированию с Берзоном и Речмединой мы дошли до того, что модели на рекуррентных сетях давали свыше 94% точности в отборе акций. Звучит как мечта. Но есть нюанс: факторные премии нестабильны во времени. Сегодня фактор работает, завтра разворачивается. Модель блестит на истории и рассыпается на новых данных.

Цена на коротком горизонте слишком близка к случайному блужданию, сигнал тонет в шуме. Сколько фич ни добавляй.

Почему волатильность это другое

Волатильность ведёт себя принципиально иначе, чем цена:

🔹 Кластеризуется — спокойные периоды идут за спокойными, бурные за бурными

🔹 Имеет память — сегодняшняя волатильность зависит от вчерашней

🔹 Возвращается к среднему — после шока успокаивается предсказуемо

Эти свойства известны со времён Энгла и Боллерслева, за них дали Нобеля. Цену предсказать красиво почти невозможно, а вот насколько сильно она будет двигаться — вполне. Туда я и ушёл.

Три грабли машинного обучения

Раз уж про ML честно, то и про грабли честно. Вот что собрал:

Грабля 1. Нейросети это не всегда ответ.

Я потратил много времени на рекуррентные сети, LSTM и GRU. Итераций было предостаточно. В моей задаче они так и не обошли градиентный бустинг — возможно, где-то я их недокрутил, но после стольких подходов вывод напрашивается сам: бустинг проще, быстрее и стабильнее на тех же данных. Сложное не всегда значит лучшее.

Грабля 2. Утечка данных убивает всё.

Самая частая и самая коварная ошибка. Достаточно один раз неправильно разделить данные, дать модели одним глазком подсмотреть будущее, и метрики взлетают до небес. А в бою всё рушится. Спасает только строгое хронологическое разделение без перемешивания и walk-forward валидация. Правильное разделение данных важнее самой модели.

Грабля 3. Данных нужно много. Очень много.

Преимущество ML над классической эконометрикой раскрывается только на больших объёмах. На дневных данных за десять лет это всего пара тысяч точек, и тут аккуратный GARCH не уступает нейросети. ML начинает реально выигрывать на высокочастотных данных, где наблюдений набираются сотни тысяч. Нет данных — нет преимущества.

Что я считаю главным

Не предсказывай куда. Предсказывай насколько сильно. Вот где математика реально помогает торговле, а не создаёт иллюзию контроля 🎯

Сложная модель без понимания природы данных это дорогая игрушка. А простая модель на правильно понятой задаче приносит деньги.

📄 Лысёнок Н. И. Применение машинного обучения для прогнозирования волатильности и улучшения торговых стратегий на российском фондовом рынке // Фундаментальная и прикладная математика. 2025. Т. 25. № 4. С. 90-107.

📄 Лысёнок Н. И. Эффективность применения прогнозов волатильности в активных торговых стратегиях институциональных инвесторов на российском рынке акций // Фундаментальная и прикладная математика. 2026. Т. 26. № 3. С. 33-42.

P.S. Кандидатская как раз про это, научный руководитель д.э.н., профессор Берзон Николай Иосифович🎓

P.P.S. В следующей части самое интересное: на предпредзащите получил точный вопрос от рецензента — а доказано ли, что более точный прогноз реально превращается в деньги? Не очевидно ведь. Спойлер: проверил прямым сравнением, ответ оказался убедительным. Разберём в Разборе #3 👀

@nilysenok #Кафедра