КАЧЕСТВО ТОРГОВЫХ ДАННЫХ
Плохие данные могут привести
любой анализ в состояние полного хаоса, дать потенциально убыточные заключения
и привести к потере драгоценного времени. Поэтому для проведения тестов
требуется применять только лучшие из доступных данных. Некоторые
прогностические системы, например основанные на нейронных сетях, могут быть
чрезвычайно чувствительны к нескольким отклонениями, ошибочным данным; в таких
случаях необходимость в чистых данных особенно высока. Время, потраченное на
поиск и окончательную чистку хороших данных, не будет потеряно.
Ошибки данных принимают много
различных форм, и некоторые из них весьма заметны. При торговле в реальном
времени порой попадаются тики с откровенно ошибочными, попросту невозможными
ценами. В течение секунды индекс S &P 500 может упасть с уровня 952,00 до
250,50! Это что — гигантский обвал рынка? Нет: спустя пару секунд в следующем
тике индекс опять будет на уровне 952,00 или где-то рядом. Что случилось?
Плохой тик — шумовой выброс в данных. Такие ошибки, если они не будут
обнаружены и исправлены, могут погубить результаты самой лучшей механической
торговой модели. Более опасны, хотя чаще встречаются и труднее обнаруживаются,
обычные мелкие ошибки в уровнях цен и других показателях, попадающих к
трейдеру от поставщиков данных. Лучшие из поставщиков неоднократно проверяют
свои данные и сообщают о поправках в случае обнаружения ошибок. Например, почти
каждый день Pinnacle Data автоматически сообщает о программных коррекциях
ошибок. Многие из этих мелких обычных ошибок не очень опасны для тестирования
систем, но заранее этого знать нельзя.
В зависимости от
чувствительности испытываемой торговой или прогностической модели и таких
факторов, как доступность программ для проверки данных, может иметь смысл
проводить различные статистические исследования для поиска подозрительных
данных. Для обнаружения этих точек, или выбросов, как их иногда называют
статистики, существует ряд методов. Порой встречаются пропущенные, лишние и
несоответствующие рыночным реалиям точки данных; их следует находить и корректировать.
Как пример проверки данных, в табл. 1-1 и 1-2 приведены случаи обработки данных
с помощью программы, ищущей выбросы, пропуски и ошибочные значения.
Табл. 1-1 изображает результат
программы, проверявшей данные по непрерывным фьючерсам на индекс S &P 500
(дневные данные от Pinnacle Data Corporation (800-724-4903)). Программа не
обнаружила неадекватных цен или объемов в этом наборе данных; не было примеров
максимальной цены, меньшей, чем цена закрытия, минимальной, большей, чем цена
открытия, отрицательного объема и других ложных данных. Два дня, впрочем,
имели подозрительно высокие значения: один — на 10/19/87 (в отчете 871019), а
другой — на 10/13/89. Аномальное значение на 10/19/87 не представляет собой
ошибки, а связано с волатильностью, вызванной крупным падением рынка; значение
на 10/13/89 также не является ошибкой, а связано с так называемым юбилейным
эффектом. Поскольку эти два значения не были ошибочными, коррекции не
потребовалось. При этом наличие таких значений в данных должно привлечь
внимание к тому факту, что на рынке случаются события, когда изменения цены
достигают экстремальных пропорций, и система должна быть способна справляться с
такими случаями. Все значения в табл. 1-1 стандартизованы, т.е. вычислены
путем деления ценового интервала данного дня на усредненный интервал 20
предыдущих дней. Как часто бывает с рыночными данными, распределение таких
стандартизованных показателей более растянуто, чем можно было бы ожидать при
нормальном распределении, но, тем не менее, статистически события 10/19/87 и 10/13/89
— исключения. Во всех остальных случаях распределение давало упорядоченную
картину: стандартизованные данные изменялись от 0 до 7 и лишь в отдельных
случаях превышали 10.
Утилита также пометила 5 дней,
как имеющие сильные отклонения цены закрытия. Как и ценовой диапазон дня,
отклонение измерялось в виде распределения значений, с использованием
стандартизованного соотношения цен закрытия. В данном случае стандартизованное
соотношение вычислялось путем деления абсолютного значения разности цены закрытия
и предшествующей цены на среднее от 20 предыдущих таких разностей.
Статья размещена в рубрике: Анализ входов и выходов в сделки на финансовых рынках
|