Методы анализа временных рядов: сглаживание. Анализ временных рядов и прогнозирование в Excel на примере Цели, методы и этапы анализа временных рядов

16.02.15 Виктор Гаврилов

44859 0

Временным рядом называется последовательность значений, изменяемых во времени. О некоторых простых, но эффективных подходах к работе с подобными последовательностями я попробую рассказать в данной статье. Примеров таких данных можно встретить очень много – котировки валют, объемы продаж, обращения клиентов, данные в различных прикладных науках (социология, метеорология, геология, наблюдения в физике) и многое другое.

Ряды являются распространенной и важной формой описания данных, так как позволяют наблюдать всю историю изменения интересующего нас значения. Это даёт нам возможность судить о «типичном» поведении величины и об отклонениях от такого поведения.

Передо мной встала задача выбрать набор данных, на котором можно было бы наглядно продемонстрировать особенности временных рядов. Я решил воспользоваться статистикой пассажиропотока на международных авиалиниях, поскольку этот набор данных весьма нагляден и стал своего рода стандартным (http://robjhyndman.com/tsdldata/data/airpass.dat , источник Time Series Data Library, R. J. Hyndman). Ряд описывает количество пассажиров международных авиалиний в месяц (в тысячах) за период с 1949 по 1960 года.

Поскольку у меня всегда под рукой , в которой есть интересный инструмент « » для работы с рядами, я воспользуюсь именно им. Перед импортом данных в файл нужно добавить столбец с датой, чтобы была привязка значений ко времени, и столбец с именем ряда для каждого наблюдения. Ниже видно, как выглядит мой исходный файл, который я импортировал в Prognoz Platform с помощью мастера импорта непосредственно из инструмента анализа временных рядов.

Первое, что мы обычно делаем с временным рядом, это отображаем его на графике. Prognoz Platform позволяет построить график, просто «перетащив» ряд в рабочую книгу.

Временной ряд на графике

Символ ‘M’ в конце имени ряда означает, что ряд имеет месячную динамику (интервал между наблюдениями равен одному месяцу).

Уже из графика мы видим, что ряд демонстрирует две особенности:

  • тренд – на нашем графике это долгосрочный рост наблюдаемых значений. Видно, что тренд практически линейный.
  • сезонность – на графике это периодические колебания величины. В следующей статье на тему временных рядов мы узнаем, как можно вычислить период.

Наш ряд достаточно «аккуратный», однако часто встречаются ряды, которые помимо двух описанных выше характеристик демонстрируют ещё одну – наличие «шума», т.е. случайных вариаций в той или иной форме. Пример такого ряда можно увидеть на графике ниже. Это синусоидальный сигнал, смешанный со случайной величиной.

При анализе рядов нас интересует выявление их структуры и оценка всех основных компонентов – тренда, сезонности, шума и других особенностей, а также возможность строить прогнозы изменения величины в будущих периодах.

При работе с рядами наличие шума часто затрудняет анализ структуры ряда. Чтобы исключить его влияние и лучше увидеть структуру ряда, можно использовать методы сглаживания рядов.

Самый простой метод сглаживания рядов – скользящее среднее. Идея заключается в том, что для любого нечётного количества точек последовательности ряда заменять центральную точку на среднее арифметическое остальных точек:

где x i – исходный ряд, s i – сглаженный ряд.

Ниже можно увидеть результат применения данного алгоритма к двум нашим рядам. Prognoz Platform по умолчанию предлагает использовать сглаживание с размером окна в 5 точек (k в нашей формуле выше будет равно 2). Обратите внимание, что сглаженный сигнал уже не так подвержен влиянию шума, однако вместе с шумом, естественно, пропадает и часть полезной информации о динамике ряда. Также видно, что у сглаженного ряда отсутствуют первые (и также последние) k точек. Это связано с тем, что сглаживание выполняется для центральной точки окна (в нашем случае для третьей точки), после чего окно сдвигается на одну точку, и вычисления повторяются. Для второго, случайного ряда, я использовал сглаживание с окном равным 30, чтобы лучше выявить структуру ряда, так как ряд «высокочастотный», точек очень много.

Метод скользящего среднего имеет определённые недостатки:

  • Скользящее среднее неэффективно в вычислении. Для каждой точки среднее необходимо перевычислять по новой. Мы не можем переиспользовать результат, вычисленный для предыдущей точки.
  • Скользящее среднее нельзя продлить на первые и последние точки ряда. Это может вызвать проблему, если нас интересуют именно эти точки.
  • Скользящее среднее не определено за пределами ряда, и как следствие, не может использоваться для прогнозирования.

Экспоненциальное сглаживание

Более продвинутый метод сглаживания, который также можно использовать для прогнозирования – экспоненциальное сглаживание, также иногда называемое методом Хольта-Уинтерса (Holt-Winters) в честь имён его создателей.

Существует насколько вариантов данного метода:

  • одинарное сглаживание для рядов, у которых нет тренда и сезонности;
  • двойное сглаживание для рядов, у которых есть тренд, но нет сезонности;
  • тройное сглаживание для рядов, у которых есть и тренд, и сезонность.

Метод экспоненциального сглаживания вычисляет значения сглаженного ряда путём обновления значений, рассчитанных на предыдущем шаге, используя информацию с текущего шага. Информация с предыдущего и текущего шагов берётся с разными весами, которыми можно управлять.

В простейшем варианте одинарного сглаживания соотношение такое:

Параметр α определяет соотношение между несглаженным значением на текущем шаге и сглаженным значением с предыдущего шага. При α =1 мы будем брать только точки исходного ряда, т.е. никакого сглаживания не будет. При α =0 ряд мы будем брать только сглаженные значения с предыдущих шагов, т.е. ряд превратится в константу.

Чтобы понять, почему сглаживание называется экспоненциальным, нам нужно раскрыть соотношение рекурсивно:

Из соотношения видно, что все предыдущие значения ряда вносят вклад в текущее сглаженное значение, однако их вклад угасает экспоненциально за счёт роста степени параметра α .

Однако, если в данных есть тренд, простое сглаживание будет «отставать» от него (либо придётся брать значения α близкими к 1, но тогда сглаживание будет недостаточным). Нужно использовать двойное экспоненциальное сглаживание.

Двойное сглаживание использует уже два уравнения – одно уравнение оценивает тренд как разницу между текущим и предыдущим сглаженным значениями, потом сглаживает тренд простым сглаживанием. Второе уравнение выполняет сглаживание как в случае простого варианта, но во втором слагаемом используется сумма предыдущего сглаженного значения и тренда.

Тройное сглаживание включает ещё один компонент – сезонность, и использует ещё одно уравнение. При этом различаются два варианта сезонного компонента – аддитивный и мультипликативный. В первом случае амплитуда сезонного компонента постоянна и со временем не зависит от базовой амплитуды ряда. Во втором случае амплитуда меняется вместе с изменением базовой амплитуды ряда. Это как раз наш случай, как видно из графика. С ростом ряда амплитуда сезонных колебаний увеличивается.

Так как наш первый ряд имеет и тренд, и сезонность, я решил подобрать параметры тройного сглаживания для него. В Prognoz Platform это довольно просто сделать, потому что при обновлении значения параметра платформа сразу же перерисовывает график сглаженного ряда, и визуально можно сразу увидеть, насколько хорошо он описывает наш исходный ряд. Я остановился на следующих значениях:

Как я вычислил период, мы рассмотрим в следующей статье о временных рядах.

Обычно в качестве первых приближений можно рассматривать значения между 0,2 и 0,4. Prognoz Platform также использует модель с дополнительным параметром ɸ , который дэмпфирует тренд так, что он приближается к константе в будущем. Для ɸ я взял значение 1, что соответствует обычной модели.

Также я сделал прогноз значений ряда данным методом на последние 2 года. На рисунке ниже я пометил точку начала прогноза, проведя через неё черту. Как видно, исходный ряд и сглаженный весьма неплохо совпадают, в том числе и на периоде прогнозирования – неплохо для такого простого метода!

Prognoz Platform также позволяет автоматически подобрать оптимальные значения параметров, используя систематический поиск в пространстве значений параметров и минимизируя сумму квадратов отклонений сглаженного ряда от исходного.

Описанные методы весьма просты, их легко применять, и они являются хорошей отправной точкой для анализа структуры и прогнозирования временных рядов.

Еще больше о временных рядах читайте в следующей статье.

Цели анализа временных рядов. При практическом изучении временных радов на основании экономических данных на определенном промежутке времени эконометрист должен сделать выводы о свойствах этого ряда и о вероятностном механизме, порождающем этот ряд. Чаще всего при изучении временных рядов ставятся следующие цели:

1. Краткое (сжатое) описание характерных особенностей ряда.

2. Подбор статистической модели, описывающей временной ряд.

3. Предсказание будущих значений на основе прошлых наблюдений.

4. Управление процессом, порождающим временной ряд.

На практике эти и подобные цели достижимы далеко не всегда и далеко не в полной мере. Часто этому препятствует недостаточный объем наблюдений из-за ограниченного времени наблюдений. Еще чаще – изменяющаяся с течением времени статистическая структура временного ряда.

Стадии анализа временных рядов . Обычно при практическом анализе временных рядов последовательно проходят следующие этапы:

1. Графическое представление и описание поведения временного рада.

2. Выделение и удаление закономерных составляющих временного рада, зависящих от времени: тренда, сезонных и циклических составляющих.

3. Выделение и удаление низко- или высокочастотных составляющих процесса (фильтрация).

4. Исследование случайной составляющей временного ряда, оставшейся после удаления перечисленных выше составляющих.

5. Построение (подбор) математической модели для описания случайной составляющей и проверка ее адекватности.

6. Прогнозирование будущего развития процесса, представленного временным рядом.

7. Исследование взаимодействий между различными временными радами.

Методы анализа временных рядов. Для решения этих задач существует большое количество различных методов. Из них наиболее распространенными являются следующие:

1. Корреляционный анализ, позволяющий выявить существенные периодические зависимости и их лаги (задержки) внутри одного процесса (автокорреляция) или между несколькими процессами (кросскорреляция).

2. Спектральный анализ, позволяющий находить периодические и квазипериодические составляющие временного ряда.

3. Сглаживание и фильтрация, предназначенные для преобразования временных рядов с целью удаления из них высокочастотных или сезонных колебаний.

5. Прогнозирование, позволяющее на основе подобранной модели поведения временного рада предсказывать его значения в будущем.

Модели тренда и методы его выделения из временного ряда

Простейшие модели тренда. Приведем модели трендов, наиболее часто используемые при анализе экономических временных рядов, а также во многих других областях. Во-первых, это простая линейная модель

где а 0 , а 1 – коэффициенты модели тренда;

t – время.

В качестве единицы времени может быть час, день (сутки), неделя, месяц, квартал или год. Модель 3.1. несмотря на свою простоту, оказывается полезной во многих реальных задачах. Если нелинейный характер тренда очевиден, то может подойти одна из следующих моделей:

1. Полиномиальная :

(3.2)

где значение степени полинома п в практических задачах редко превышает 5;

2. Логарифмическая:

Эта модель чаще всего применяется для данных, имеющих тенденцию сохранять постоянные темпы прироста;

3. Логистическая :

(3.4)

Гомперца

(3.5)

Две последние модели задают кривые тренда S-образной формы. Они соответствуют процессам с постепенно возрастающими темпами роста в начальной стадии и постепенно затухающимитемпами роста в конце. Необходимость подобных моделей обусловлена невозможностью многих экономических процессов продолжительное время развиваться с постоянными темпами роста или по полиномиальным моделям, в связи с их довольно быстрым ростом (или уменьшением).

При прогнозировании тренд используют в первую очередь для долговременных прогнозов. Точность краткосрочных прогнозов, основанных только на подобранной кривой тренда, как правило, недостаточна.

Для оценки и удаления трендов из временных рядов чаще всего используется метод наименьших квадратов. Этот метод достаточно подробно рассматривался во втором разделе пособия в задачах линейного регрессионного анализа. Значения временного ряда рассматриваюткак отклик (зависимую переменную), а время t – какфактор, влияющий на отклик (независимую переменную).

Для временных рядов характерна взаимная зависимость его членов (по крайней мере, не далеко отстоящих по времени) и это является существенным отличием от обычного регрессионного анализа, для которого все наблюдения предполагаются независимыми. Тем не менее, оценки тренда и в этих условиях обычно оказываются разумными, если выбрана адекватная модель тренда и если среди наблюдений нет больших выбросов. Упомянутые выше нарушения ограничений регрессионного анализа сказываются не столько на значениях оценок, сколько наих статистических свойствах. Так, при наличии заметной зависимости между членами временного ряда оценки дисперсии, основанные на остаточнойсумме квадратов (2.3), дают неправильные результаты. Неправильными оказываются и доверительные интервалы для коэффициентов модели, и т.д. В лучшем случае их можно рассматривать как очень приближенные.

Это положение может быть частично исправлено, если применять модифицированные алгоритмы метода наименьших квадратов, такие как взвешенный метод наименьших квадратов. Однако для этих методов требуется дополнительная информация о том, как меняется дисперсия наблюдений или их корреляция. Если же такая информация недоступна, исследователям приходится применять классический метод наименьших квадратов, несмотря на указанные недостатки.

Зачем нужны графические методы. В выборочных исследованиях простейшие числовые характеристики описательной статистики (среднее, медиана, дисперсия, стандартное отклонение) обычно дают достаточно информативное представление о выборке. Графические методы представления и анализа выборок при этом играют лишь вспомогательную роль, позволяя лучше понять локализацию и концентрацию данных, их закон распределения.

Роль графических методов при анализе временных рядов совершенно иная. Дело в том, что табличное представление временного ряда и описательные статистики чаще всего не позволяют понять характер процесса, в то время как по графику временного ряда можно сделать довольно много выводов. В дальнейшем они могут быть проверены и уточнены с помощью расчетов.

При анализе графиков можно достаточно уверенно определить:

· наличие тренда и его характер;

· наличие сезонных и циклических компонент;

· степень плавности или прерывистости изменений последовательных значений ряда после устранения тренда. По этому показателю можно судить о характере и величине корреляции между соседними элементами ряда.

Построение и изучение графика. Построение графика временного ряда – совсем не такая простая задача, как это кажется на первый взгляд. Современный уровень анализа временных рядов предполагает использование той или иной компьютерной программы для построения их графиков и всего последующего анализа. Большинство статистических пакетов и электронных таблиц снабжено теми или иными методами настройки на оптимальное представление временного ряда, но даже при их использовании могут возникать различные проблемы, например:

· из-за ограниченности разрешающей способности экранов компьютеров размеры выводимых графиков могут быть также ограничены;

· при больших объемах анализируемых рядов точки на экране, изображающие наблюдения временного ряда, могут превратиться в сплошную черную полосу.

Для борьбы с этими затруднениями используются различные способы. Наличие в графической процедуре режима «лупы» или «увеличения» позволяет изобразить более крупно выбранную часть ряда, однако при этом становится трудно судить о характере поведения ряда на всем анализируемом интервале. Приходится распечатывать графики для отдельных частей ряда и состыковыватьих вместе, чтобы увидеть картину поведения ряда в целом. Иногда для улучшения воспроизведения длинных рядов используется прореживание, то есть выбор и отображение на графике каждой второй, пятой, десятой и т.д. точки временного ряда. Эта процедура позволяет сохранить целостное представление ряда и полезна для обнаружения трендов. На практике полезно сочетание обеих процедур: разбиения ряда на части и прореживания, так как они позволяют определить особенности поведения временного ряда.

Еще одну проблему при воспроизведении графиков создают выбросы – наблюдения, в несколько раз превышающие по величине большинство остальных значений ряда. Их присутствие тоже приводит к неразличимости колебаний временного ряда, так как масштаб изображения программа автоматически подбирает так, чтобы все наблюдения поместились на экране. Выбор другого масштаба на оси ординат устраняет эту проблему, но резко отличающиеся наблюдения при этом остаются за границами экрана.

Вспомогательные графики. При анализе временных рядов часто используются вспомогательные графики для числовых характеристик ряда:

· график выборочной автокорреляционной функции (коррелограммы) с доверительной зоной (трубкой) для нулевой автокорреляционной функции;

· график выборочной частной автокорреляционной функции с доверительной зоной для нулевой частной автокорреляционной функции;

· график периодограммы.

Первые дваиз этих графиков позволяют судить о связи (зависимости) соседних значений временного рада, они используются при подборе параметрических моделей авторегрессии и скользящего среднего. График периодограммы позволяет судить о наличии гармонических составляющих во временном ряде.

Пример анализа временных рядов

Покажем последовательность анализа временных рядов на следующем примере. В таблице 8 приведены в относительных единицах данные продаж продовольственных товаров в магазине (Y t ). Разработать модель продаж и провести прогнозирование объема продаж на первые 6 месяцев 1996 года. Выводы обосновать.

Таблица 8

Месяц Y t

Построим график этой функции (рис. 8).

Анализ графика показывает:

· Временной ряд имеет тренд, весьма близкий к линейному.

· Существует определенная цикличность (повторяемость) процессов продаж с периодом цикла 6 месяцев.

· Временный ряд нестационарный, для приведения его к стационарному виду из него необходимо удалить тренд.

После перерисовки графика с периодом 6 месяцев он будет иметь следующий вид (рис.9). Так как колебания объемов продаж достаточно велики (это видно по графику) необходимо провести его сглаживание для более точного определения тренда.

Существует несколько подходов к сглаживанию временного временных рядов:

Ø Простое сглаживание.

Ø Метод взвешенной скользящей средней.

Ø Метод экспоненциального сглаживания Брауна.

Простое сглаживание основано на преобразовании исходного ряда в другой, значения которого являются усредненными по трем рядом стоящим точкам временного ряда:

(3.10)

для 1-го члена ряда

(3.11)

для n -го (последнего) члена ряда

(3.12)

Метод взвешенной скользящей средней отличается от простого сглаживания тем, что включает параметр w t , который позволяет вести сглаживание по 5 или 7 точкам

для полиномов 2-го и 3-го порядков значение параметра w t определяется из следующей таблицы

m = 5 -3 -3
m = 7 -2 -2

Метод экспоненциального сглаживания Брауна использует предшествующие значений ряда, взятые с определенным весом. Причем вес уменьшается по мере удаления его от текущего времени

, (3.14)

где а – параметр сглаживания (1 > a > 0);

(1 - а) – коэф. дисконтирования.

S o обычно выбирается равным Y 1 или среднему из первых трех значений ряда.

Проведем простое сглаживание ряда. Результаты сглаживания ряда приведены в таблице 9. Полученные результаты представлены графически на рис.10. Повторное применение процедуры сглаживания к временному ряду позволяет получить более гладкую кривую. Результаты расчетов повторного сглаживания также представлены в таблице 9. Найдем оценки параметров линейной модели тренда по методике, рассмотренной в предыдущем разделе. Результаты расчетов следующие:

Множественный R 0,933302
R-квадрат 0,871052
`a 0 = 212,9729043 `t = 30,26026442 `a 1 = 5,533978254 `t = 13,50506944 F = 182,3869

Уточненный график с линией тренда и моделью тренда представлен на рис. 12.

Месяц Y t Y 1t Y 2t

Таблица 9


Рис. 12

Следующий этап заключается в удалении тренда из исходного временного ряда.



Для удаления тренда вычтем из каждого элемента первоначального ряда значения, рассчитанные по модели тренда. Полученные значения представим графически на рис.13.

Полученные остатки, как видно из рис. 13, группируются около нуля, а это значит, что ряд близок к стационарному.

Для построения гистограммы распределения остатков рассчитывают интервалы группирования остатков ряда. Количество интервалов определяют из условия среднего попадания в интервал 3-4 наблюдения. Для нашего случая возьмем 8 интервалов. Размах ряда (крайние значения) от –40 до +40. Ширина интервала определяется как 80/8 =10. Границы интервалов рассчитываются от минимального значения размаха полученного ряда

-40 -30 -20 -10

Теперь определим накопленные частоты попадания остатков ряда в каждый интервал и нарисуем гистограмму (рис.14).

Анализ гистограммы показывает, что остатки группируются около 0. Однако в области от 30 до 40 есть некоторый локальный выброс, который свидетельствует о том, что не учтены и не удалены из исходного временного ряда некоторые сезонные или циклически компоненты. Более точно о характере распределения и его принадлежности к нормальному распределению можно сделать выводы после проверки статистической гипотезы о характере распределения остатков. При ручной обработке рядов обычно ограничиваются визуальным анализом полученных рядов. При обработке на ЭВМ существует возможность более полного анализа.

Что же является критерием завершения анализа временного ряда? Обычно исследователи используют два критерия, отличающихся от критериев качества модели при корреляционно-регрессионном анализе.

Первый критерий качества подобранной модели временного ряда основан на анализе остатков ряда после удаления из него тренда и других компонент. Объективные оценки основаны на проверке гипотезы о нормальном распределении остатков и равенстве нулю выборочного среднего. При ручных методах расчета иногда оценивают показатели ассиметрии и эксцесса полученного распределения. Если они близки к нулю, то распределение считается близким к нормальному. Ассиметрия , А рассчитывается как:

В том случае, если A < 0, то эмпирическое распределение несимметрично и сдвинуто вправо. При A > 0 распределение имеет сдвиг влево. При A = 0 распределение симметрично.

Эксцесс , Е. Показатель, характеризующий выпуклость или вогнутость эмпирических распределений

В том случае, если Е больше или равно нулю, то распределение выпукло, в других случаях вогнуто.

Второй критерий основан на анализе коррелограммы преобразованного временного ряда. В том случае, если корреляции между отдельными измерениями отсутствуют или меньше заданного значения (обычно 0.1) считается, что все компоненты ряда учтены и удалены и остатки не коррелированы между собой. В остатках ряда осталась некая случайная компонента, которая называется «белый шум».

Резюме

Применение методов анализа временных рядов в экономике позволяет сделать обоснованный прогноз изменения исследуемых показателей при определенных условиях и свойствах временного ряда. Временной ряд должен быть достаточного объема и содержать не менее 4 циклов повторения исследуемых процессов. Кроме того, случайная компонента ряда не должна быть соизмеримой с другими циклическими и сезонными компонентами ряда. В этом случае получаемые оценки прогноза имеют практический смысл.

Литература

Основная:

1. Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика: Начальный курс. Акад. нар. хоз-ва при Правительстве РФ. – М.: Дело, 1997. – 245 с.

2. Доугерти К. Введение в эконометрику. – М.: ИНФРА-М, 1997. – 402 с.

Дополнительная:

1. Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики. – М.: Юнити, 1998. – 1022 с.

2. Многомерный статистический анализ в экономике / Под ред. В.Н. Тамашевича. – М.: Юнити-Дана, 1999. – 598 с.

3. Айвазян С.А., Енюков Й.С., Мешалкин Л.Д. Прикладная статистика. Основы моделирования и первичная обработка данных. – М.: Финансы и статистика, 1983.

4. Айвазян С.А., Енюков Й.С., Мешалкин Л.Д. Прикладная статистика. Исследование зависимостей. – М.: Финансы и статистика, 1985.

5. Айвазян С.А., Бухштабер В.М., Енюков С.А., Мешалкин Л.Д. Прикладная статистика. Классификация и снижение размерности. – М.: Финансы и статистика, 1989.

6. Бард Й. Нелинейное оценивание параметров. – М.: Статистика, 1979.

7. Демиденко Е.З. Линейная и нелинейная регрессия. – М.: Финансы и статистика, 1981.

8. Джонстон Д. Эконометрические методы. – М.: Статистика, 1980.

9. Дрейпер Н., Смит Г. Прикладной регрессионный анализ. В 2-х кн. – М.: Финансы и статистика, 1986.

10. Себер Дж. Линейный регрессионный анализ. – М.: Мир, 1980.

11. Андерсон Т. Cтатистический анализ временных рядов. – М.: Мир, 1976.

12. Бокс Дж., Дженкинс Г. Анализ временных рядов. Прогноз и управление. (Вып. 1, 2). – М.: Мир, 1972.

13. Дженкинс Г., Ваттс Д. Cпектральный анализ и его применения. – М.: Мир, 1971.

14. Гренджер К., Хатанака М. Cпектральный анализ временных рядов в экономике. – М.: Статистика, 1972.

15. Кендэл М. Временные ряды. – М.: Финансы и статистика, 1981.

16. Вапник В.Н. Восстановление зависимостей по эмпирическим данным. – М.: Наука, 1979.

17. Дюран Б., Оделл П. Кластерный анализ. – М.: Статистика, 1977.

18. Ермаков C.М., Жиглявский А.А. Математическая теория оптимального эксперимента. – М.: Наука, 1982.

19. Лоули Д., Максвелл А. Факторный анализ как статистический метод. – М.: Мир, 1967.

20. Розин Б.Б. Теория распознавания образов в экономических исследованиях. – М.: Статистика, 1973.

21. Справочник по прикладной статистике. – М.: Финансы и статистика, 1990.

22. Хьюбер П. Робастность в статистике. – М.: Мир, 1984.

23. Шеффе Г. Дисперсионный анализ. – М.: Наука, 1980.

Обзор литературы по статистическим пакетам:

1. Кузнецов С.Е. Халилеев А.А. Обзор специализированных статистических пакетов по анализу временных рядов. – М.: Статдиалог, 1991.


Виды и методы анализа временных рядов

Временной ряд представляет собой совокупность последовательных измерений переменной, проведенных через одинаковые интервалы времени . Анализ временных рядов позволяет решать следующие задачи:

  • исследовать структуру временного ряда, включающую, как правило, тренд - закономерные изменения среднего уровня, а также случайные периодические колебания;
  • исследовать причинно-следственные взаимосвязи между процессами, определяющие изменения рядов, которые проявляются в корреляционных связях между временными рядами;
  • построить математическую модель процесса, представленного временным рядом;
  • преобразовать временной ряд средствами сглаживания и фильтрации;
  • прогнозировать будущее развития процесса.

Значительная часть известных методов предназначена для анализа стационарных процессов, статистические свойства которых, характеризуемые при нормальном распределении средним значением и дисперсией, постоянны, не меняются с течением времени.

Но ряды часто имеют нестационарный характер. Нестационарность можно устранить следующим образом:

  • вычесть тренд, т.е. изменения среднего значения, представленного некоторой детерминированной функцией, которую можно подобрать путем регрессионного анализа;
  • выполнить фильтрацию специальным нестационарным фильтром.

Для стандартизации временных рядов в целях единообразия методов

анализа целесообразно провести их общее или посезонное центрирование путем деления на среднюю величину, а так же нормирование путем деления на стандартное отклонение.

Центрирование ряда удаляет ненулевое среднее значение, которое может затруднить интерпретацию результатов, например, при спектральном анализе. Цель нормирования - избежать в вычислениях операций с большими числами, что может привести к снижению точности расчетов.

После указанных предварительных преобразований временного ряда может быть построена его математическая модель, по которой осуществлено прогнозирование, т.е. получено некоторое продолжение временного ряда.

Чтобы результат прогноза можно было сопоставить с исходными данными, над ним следует произвести преобразования, обратные выполненным.

На практике наиболее часто используют методы моделирования и прогнозирования, а корреляционный и спектральный анализ рассматривают как вспомогательные методы. Это заблуждение. Методы прогнозирования развития средних тенденций позволяют получить оценки с существенными погрешностями, что весьма затрудняет прогнозирование будущих значений переменной, представленной временным рядом.

Методы корреляционного и спектрального анализа позволяют выявить различные, в том числе инерционные свойства системы, в которой идет развитие изучаемых процессов. Применение этих методов позволяет по текущей динамике процессов с достаточной уверенностью установить, как и с какой задержкой, известная динамика скажется на будущем развитии процессов. Для долгосрочного прогнозирования эти виды анализа позволяют получить ценные результаты.

Анализ и прогнозирование тренда

Анализ тренда предназначен для исследования изменений среднего значения временного ряда с построением математической модели тренда и с прогнозированием на этой основе будущих значений ряда. Анализ тренда выполняют путем построения моделей простой линейной или нелинейной регрессии.

Используемые исходные данные представляют собой две переменные, одна из которых - значения временного параметра, а другая - собственно значения временного ряда. В процессе анализа можно:

  • опробовать несколько математических моделей тренда и выбрать ту, которая с большей точностью описывает динамику изменения ряда;
  • построить прогноз будущего поведения временного ряда на основании выбранной модели тренда с определенной доверительной вероятностью;
  • удалить тренд из временного ряда в целях обеспечения его стационарности, необходимой для корреляционного и спектрального анализа, для этого после расчета регрессионной модели необходимо сохранить остатки для выполнения анализа.

В качестве моделей трендов используют различные функции и сочетания, а так же степенные ряды, иногда называемые полиномиальными моделями. Наибольшую точность обеспечивают модели в виде рядов Фурье, однако не многие статистические пакеты позволяют использовать такие модели.

Проиллюстрируем получение модели тренда ряда. Используем ряд данных о валовом национальном продукте США на период 1929-1978 гг. в текущих ценах. Построим полиномиальную регрессионную модель. Точность модели повышалась, пока степень полинома не достигла пятой:

У = 145,6 - 35,67* + 4,59* 2 - 0,189* 3 + 0,00353х 4 + 0,000024* 5 ,

(14,9) (5,73) (0,68) (0,033) (0,00072) (0,0000056)

где У - ВНП, млрд дол.;

* - годы, отсчитываемые от первого 1929 г.;

под коэффициентами указаны их стандартные ошибки.

Стандартные ошибки коэффициентов модели малы, не достигают величин, равных половине значений коэффициентов модели. Это свидетельствует о хорошем качестве модели.

Коэффициент детерминации модели, равный квадрату приведенного коэффициента множественной корреляции составил 99%. Это означает, что модель объясняет данные на 99%. Стандартная ошибка модели оказалась равна 14,7 млрд, а уровень значимости нулевой гипотезы - гипотезы об отсутствии связи - менее 0,1%.

С помощью полученной модели можно дать прогноз, который в сопоставлении с фактическими данными приведен в табл. ПЗ. 1.

Прогноз и фактический размер ВНП США, млрд дол.

Таблица ПЗ.1

Прогноз, полученный с помощью полиномиальной модели, не слишком точен, о чем свидетельствуют данные, приведенные в таблице.

Корреляционный анализ

Корреляционный анализ необходим для выявления корреляций и их лагов - задержек их периодичности. Связь в одном процессе получила название автокорреляции, а связь между двумя процессами, характеризуемыми рядами - кросскорреляции. Высокий уровень корреляции может служить индикатором причинно-следственных связей, взаимодействий внутри одного процесса, между двумя процессами, а величина лага указывает временную задержку в передаче взаимодействия.

Обычно в процессе расчета значений корреляционной функции на к -м шаге вычисляется корреляция между переменными по длине отрезка / = 1,..., (п - к) первого ряда X и отрезка / = к ,..., п второго ряда К Длина отрезков, таким образом, меняется.

В результате получается некоторая трудная для практической интерпретации величина, напоминающая параметрический коэффициент корреляции, но не идентичная ему. Поэтому возможности корреляционного анализа, методику которого используют во многих статистических пакетах, ограничены узким кругом классов временных рядов, которые нехарактерны для большинства экономических процессов.

Экономистов в корреляционном анализе интересует исследование лагов в передаче воздействия от одного процесса к другому или влияния начального возмущения на последующее развитие того же самого процесса. Для решения таких задач была предложена модификация известного метода, названная интервальной корреляцией ".

Кулаичев А.П. Методы и средства анализа данных в среде Vindows. - М.: Информатика и компьютеры, 2003.

Интервальная корреляционная функция представляет собой последовательность коэффициентов корреляции, вычисленных между фиксированным отрезком первого ряда заданного размера и положения и равными им по размеру отрезками второго ряда, выбранных с последовательными сдвигами от начала ряда.

В определение добавляется два новых параметра: длина сдвигаемого фрагмента ряда и его начальное положение, а также используется принятое в математической статистике определение коэффициента корреляции Пирсона. Благодаря этому вычисляемые значения становятся сравнимы между собой и просто интерпретируемы.

Обычно для выполнения анализа необходимо выбрать одну или соответственно две переменные для автокорреляционного или кросскорреляцион-ного анализа, а так же задать следующие параметры:

Размерность временного шага анализируемого ряда для согласования

результатов с реальной временной шкалой;

Длину сдвигаемого фрагмента первого ряда, в виде числа включаемых в

него элементов ряда;

Сдвиг этого фрагмента относительно начала ряда.

Разумеется, необходимо выбрать вариант интервальной корреляции или иной корреляционной функции.

Если для анализа выбрана одна переменная, то вычисляются значения автокорреляционной функции для последовательно увеличивающихся лагов. Автокорреляционная функция позволяет определить, в какой степени динамика изменения заданного фрагмента воспроизводится в сдвинутых во времени его же отрезках.

Если для анализа выбраны две переменные, то вычисляются значения кросскорреляционной функции для последовательно увеличивающихся лагов - сдвигов второй из выбранных переменных относительно первой. Кросскорреляционная функция позволяет определить, в какой степени изменения фрагмента первого ряда воспроизводятся в сдвинутых во времени фрагментах второго ряда.

Результаты анализа должны включать оценки критического значения коэффициента корреляции г 0 для гипотезы «г 0 = 0» на определенном уровне значимости. Это позволяет не принимать во внимание статистически незначимые коэффициенты корреляции. Необходимо получить значения корреляционной функции с указанием лагов. Весьма полезны и наглядны графики авто- или кросскорреляционных функций.

Проиллюстрируем применение кросскорреляционного анализа на примере. Оценим взаимосвязи темпов прироста ВНП США и СССР за 60 лет с 1930 по 1979 гг. Для получения характеристик долгосрочных тенденций сдвигаемый фрагмент ряда выбран длиной 25 лет. В результате были получены коэффициенты корреляции при разных лагах.

Единственный лаг, при котором корреляция оказывается значимой - 28 лет. Коэффициент корреляции при этом лаге составляет 0,67, тогда как пороговое, минимальное значение - 0,36. Оказывается, что цикличность долгосрочного развития экономики СССР с лагом величиной 28 лет была тесно связана с цикличностью долгосрочного развития экономики США.

Спектральный анализ

Общепринятый способ анализа структуры стационарных временных рядов - это использование дискретного преобразования Фурье для оценки спектральной плотности или спектра ряда. Этот метод можно применять:

  • для получения описательных статистик одного временного ряда или описательных статистик зависимостей между двумя временными рядами;
  • для выявления периодических и квазипериодических свойств рядов;
  • для проверки адекватности моделей, построенных другими методами;
  • для сжатого представления данных;
  • для интерполяции динамики временных рядов.

Точность оценок спектрального анализа можно повысить за счет применения специальных методов - использования сглаживающих окон и методов усреднения.

Для анализа необходимо выбрать одну или две переменные, при этом должны быть заданы следующие параметры:

  • размерность временного шага анализируемого ряда, необходимая для согласования результатов с реальной временной и частотной шкалами;
  • длина к анализируемого отрезка временного ряда, в виде числа включаемых в него данных;
  • сдвиг очередного отрезка ряда к 0 относительно предыдущего;
  • тип временного окна сглаживания для подавления в спектре так называемого эффекта вытекания мощности ;
  • тип усреднения частотных характеристик, вычисленных на последовательных отрезках временного ряда.

Результаты анализа включают спектрограммы - значения характеристик амплитудно-частотной спектра и значения фазочастотных характеристик. В случае кросс-спектрального анализа результаты - это также значения передаточной функции и функции когерентности спектра. Результаты анализа могут включать и данные периодограмм.

Амплитудно-частотная характеристика кросс-спектра, называемая также кросс-спектральной плотностью, представляет зависимость амплитуды взаимного спектра двух взаимосвязанных процессов от частоты. Такая характеристика наглядно показывает, на каких частотах наблюдается синхронные и соответствующие по величине изменения мощности в двух анализируемых временных рядах или где находятся области их максимальных совпадений и максимальных несовпадений.

Проиллюстрируем применение спектрально анализа на примере. Проанализируем волны экономической конъюнктуры в Европе в период начала индустриального развития. Для анализа используем не сглаженный временной ряд индексов цен на пшеницу, усредненных Бевериджем по данным 40 рынков Европы за 370 лет с 1500 по 1869 г. Получим спектры

ряда и отдельных его отрезков продолжительностью 100 лет через каждые 25 лет.

Спектральный анализ позволяет оценить мощность каждой гармоники спектра. Наиболее мощными оказываются волны с 50-летним периодом, которые, как известно, были открыты Н. Кондратьевым 1 и получили его имя. Анализ позволяет установить, что сформировались они не в конце XVII - начале XIX в., как полагают многие экономисты. Они сформировались с 1725 по 1775 г.

Построение моделей авторегрессии и проинтегрированного скользящего среднего (ARIMA) считаются полезными для описания и прогнозирования стационарных временных рядов и нестационарных рядов, обнаруживающих однородные колебания вокруг изменяющегося среднего значения.

Модели ARIMA представляют собой комбинации двух моделей: авторегрессии {AR) и скользящего среднего (moving average - МА).

Модели скользящего среднего (МА) представляют стационарный процесс в виде линейной комбинации последовательных значений так называемого «белого шума». Такие модели оказываются полезными как в качестве самостоятельных описаний стационарных процессов, так и в качестве дополнения к моделям авторегрессии для более детального описания шумовой составляющей.

Алгоритмы вычисления параметров модели МА очень чувствительны к неправильному выбору числа параметров для конкретного временного ряда, особенно в сторону их увеличения, что может выражаться в отсутствии сходимости вычислений. Рекомендуется не выбирать на начальных этапах анализа модель скользящего среднего с большим числом параметров.

Предварительное оценивание - первый этап анализа с использованием модели ARIMA. Процесс предварительного оценивания прекращается по принятию гипотезы об адекватности модели временному ряду или по исчерпанию допустимого числа параметров. В итоге результаты анализа включают:

  • значения параметров авторегрессионой модели и модели скользящего среднего;
  • для каждого шага прогнозирования указываются - среднее значение прогноза, стандартная ошибка прогноза, доверительный интервал прогноза для определенного уровня значимости;
  • статистику оценки уровня значимости гипотезы не коррелированное™ остатков;
  • графики временного ряда с указанием стандартной ошибки прогноза.
  • Значительная часть материалов раздела ПЗ основана на положениях книг: Басовский Л.Е. Прогнозирование и планирование в условиях рынка. - М.: ИНФРА-М, 2008. Гилмор Р. Прикладная теория катастроф: В 2 кн. Кн. 1/ Пер. с англ. М.: Мир, 1984.
  • Жан Батист Жозеф Фурье (Jean Baptiste Joseph Fourier ; 1768-1830) - французский математик и физик.
  • Николай Дмитриевич Кондратьев (1892-1938) - русский и советский экономист.

Цель анализа временных рядов обычно заключается в построении математической модели ряда, с помощью которой можно объяснить его поведение и осуществить прогноз на определенный период времени. Анализ временных рядов включает следующие основные этапы.

Анализ временного ряда обычно начинается с построения и изучения его графика.

Если нестационарность временного ряда очевидна, то первым делом надо выделить и удалить нестационарную составляющую ряда. Процесс удаления тренда и других компонент ряда, приводящих к нарушению стационарности, может проходить в несколько этапов. На каждом из них рассматривается ряд остатков, полученный в результате вычитания из исходного ряда подобранной модели тренда, или результат разностных и других преобразований ряда. Кроме графиков, признаками нестационарности временного ряда могут служить не стремящаяся к нулю автокорреляционная функция (за исключением очень больших значений лагов).

Подбор модели для временного ряда. После того, как исходный процесс максимально приближен к стационарному, можно приступить к подбору различных моделей полученного процесса. Цель этого этапа – описание и учет в дальнейшем анализе корреляционной структуры рассматриваемого процесса. При этом на практике чаще всего используются параметрические модели авторегрессии-скользящего среднего (ARIMA-модели)

Модель может считаться подобранной, если остаточная компонента ряда является процессом типа «белого шума», когда остатки распределены по нормальному закону с выборочным средним равным 0. После подбора модели обычно выполняются:

    оценка дисперсии остатков, которая в дальнейшем может быть использована для построения доверительных интервалов прогноза;

    анализ остатков с целью проверки адекватности модели.

Прогнозирование и интерполяция . Последним этапом анализа временного ряда может быть прогнозирование его будущих (экстраполяция) или восстановление пропущенных (интерполяция) значений и указания точности этого прогноза на базе подобранной модели. Не всегда удается хорошо подобрать математическую модель для временного ряда. Неоднозначность подбора модели может наблюдаться как на этапе выделения детерминированной компоненты ряда, так и при выборе структуры ряда остатков. Поэтому исследователи довольно часто прибегают к методу нескольких прогнозов, сделанных с помощью разных моделей.

Методы анализа. При анализе временных рядов обычно используются следующие методы:

    графические методы представления временных рядов и их сопутствующих числовых характеристик;

    методы сведения к стационарным процессам: удаление тренда, модели скользящего среднего и авторегрессии;

    методы исследования внутренних связей между элементами временных рядов.

3.5. Графические методы анализа временных рядов

Зачем нужны графические методы. В выборочных исследованиях простейшие числовые характеристики описательной статистики (среднее, медиана, дисперсия, стандартное отклонение) обычно дают достаточно информативное представление о выборке. Графические методы представления и анализа выборок при этом играют лишь вспомогательную роль, позволяя лучше понять локализацию и концентрацию данных, их закон распределения.

Роль графических методов при анализе временных рядов совершенно иная. Дело в том, что табличное представление временного ряда и описательные статистики чаще всего не позволяют понять характер процесса, в то время как по графику временного ряда можно сделать довольно много выводов. В дальнейшем они могут быть проверены и уточнены с помощью расчетов.

При анализе графиков можно достаточно уверенно определить:

    наличие тренда и его характер;

    наличие сезонных и циклических компонент;

    степень плавности или прерывистости изменений последовательных значений ряда после устранения тренда. По этому показателю можно судить о характере и величине корреляции между соседними элементами ряда.

Построение и изучение графика. Построение графика временного ряда – совсем не такая простая задача, как это кажется на первый взгляд. Современный уровень анализа временных рядов предполагает использование той или иной компьютерной программы для построения их графиков и всего последующего анализа. Большинство статистических пакетов и электронных таблиц снабжено теми или иными методами настройки на оптимальное представление временного ряда, но даже при их использовании могут возникать различные проблемы, например:

    из-за ограниченности разрешающей способности экранов компьютеров размеры выводимых графиков могут быть также ограничены;

    при больших объемах анализируемых рядов точки на экране, изображающие наблюдения временного ряда, могут превратиться в сплошную черную полосу.

Для борьбы с этими затруднениями используются различные способы. Наличие в графической процедуре режима «лупы» или «увеличения» позволяет изобразить более крупно выбранную часть ряда, однако при этом становится трудно судить о характере поведения ряда на всем анализируемом интервале. Приходится распечатывать графики для отдельных частей ряда и состыковыватьих вместе, чтобы увидеть картину поведения ряда в целом. Иногда для улучшения воспроизведения длинных рядов используетсяпрореживание, то есть выбор и отображение на графике каждой второй, пятой, десятой и т.д. точки временного ряда. Эта процедура позволяет сохранить целостное представление ряда и полезна для обнаружения трендов. На практике полезно сочетание обеих процедур: разбиения ряда на части и прореживания, так как они позволяют определить особенности поведения временного ряда.

Еще одну проблему при воспроизведении графиков создают выбросы – наблюдения, в несколько раз превышающие по величине большинство остальных значений ряда. Их присутствие тоже приводит к неразличимости колебаний временного ряда, так как масштаб изображения программа автоматически подбирает так, чтобы все наблюдения поместились на экране. Выбор другого масштаба на оси ординат устраняет эту проблему, но резко отличающиеся наблюдения при этом остаются за границами экрана.

Вспомогательные графики. При анализе временных рядов часто используются вспомогательные графики для числовых характеристик ряда:

    график выборочной автокорреляционной функции (коррелограммы) с доверительной зоной (трубкой) для нулевой автокорреляционной функции;

    график выборочной частной автокорреляционной функции с доверительной зоной для нулевой частной автокорреляционной функции;

    график периодограммы.

Первые дваиз этих графиков позволяют судить о связи (зависимости) соседних значений временного рада, они используются при подборе параметрических моделей авторегрессии и скользящего среднего. График периодограммы позволяет судить о наличии гармонических составляющих во временном ряде.