модели множественной линейной регрессии
В моделях множественной линейной регрессии при увеличении
количества параметров регрессии (бета- весов) по отношению к размеру выборки
увеличивается степень вредной подгонки и уменьшается достоверность результатов
модели. Другими словами, чем выше степень подгонки под исторические данные, тем
сложнее добиться статистической значимости. Исключением является случай, когда
повышение результативности модели, вызванное подгонкой, компенсирует потерю
значимости при добавлении параметров. Оценка степени ожидаемого снижения
корреляции при использовании данных вне выборки может производиться напрямую,
исходя из объема данных и количества параметров: корреляция снижается с
увеличением числа параметров и увеличивается с ростом объема данных. В общем,
существуют достоверные математические доказательства того, что вероятность
вредной подгонки повышается, если количество оптимизируемых параметров велико
по отношению к объему используемой выборки данных. Фактически, когда n (размер
выборки) стремится к бесконечности, вероятность того, что подгонка параметров
будет непредставительной для данной популяции, стремится к нулю. Чем больше
параметров оптимизируется, тем большая требуется выборка данных. На языке статистики
это звучит так: оптимизируемые параметры используют доступные степени свободы.
Все это ведет к заключению, что чем больше выборка, тем
более вероятность того, что найденные параметры системы будут представительным
отражением характеристик рынка в целом. Маленькая выборка, скорее всего, будет
непредставительной: ее кривые вряд ли будут соответствовать долговременным,
устойчивым характеристикам рынка. Любая модель, построенная с использованием
маленькой выборки, может быть эффективной только по чистой случайности. Будет
ли подгонка полезной или вредной, во многом зависит от отражения в ней
случайных ценовых движений или реальных рыночных процессов, что, в свою
очередь, зависит от представительности выборки. Статистика полезна, поскольку
позволяет принять в расчет при оценке системы степень подгонки.
При работе с нейронными сетями опасения относительно
излишнего обучения, или генерализации, соответствуют опасениям относительно
излишней подгонки под исторические данные. Если выборка достаточно объемиста и
представительна, повышается вероятность отражения в найденных оптимальных
параметрах реальных характеристик рынка, что полезно для реальной работы
системы. Если же выборка мала, модель практически гарантированно будет
настроена на особенности выборки, но никак не на особенности рынка в целом. Для
нейронных сетей успех генерализации означает то же, что для других систем, —
устойчивость в будущем и так же сильно зависит от размеров выборки,
использованной для обучения сети. Чем больше выборка или чем меньше количество
весов связей (т.е. параметров), тем выше вероятность удачной генерализации. Это
также можно доказать математически путем разбора несложных примеров.
Статья размещена в рубрике: Анализ входов и выходов в сделки на финансовых рынках
|