Сначала находится прогнозируемый курс доллара, например, на апрель 2010 г. С учетом того, что порядковый номер апреля 2010 г. равен 215 (июнь 1992 г. = 1), на этот месяц может быть предсказан следующий курс доллара:
Yрасч = 0,1622 × 215 + 1,9958 = 36,8616;
Е= Yфакт- Yрасч = -7,573.
Следовательно, прогноз, сделанный по уравнению регрессии, в апреле 2010 г. оказался выше фактического курса доллара на 7 руб. 57,3 коп. Вполне очевидно, что это слишком большая величина отклонения, чтобы исследуемое уравнение регрессии можно было бы использовать для прогноза валютного курса. В свою очередь чем ближе теоретические значения подходят к фактическим данным, тем лучше качество прогностической модели. Поскольку разница между фактическим и предсказываемым значениями курса доллара (Yфакт- Yрасч) может быть величиной как положительной, так и отрицательной, то ошибку аппроксимации (подгонки модели к фактическим данным) следует определять как в абсолютных цифрах по модулю, так и в процентах по модулю.
При этом среднюю абсолютную ошибку по модулю находят по следующей формуле:
Для нашего уравнения регрессии средняя абсолютная ошибка по формуле (2.20) будет равна
Иначе говоря, прогноз по этой статистической модели в среднем по каждому наблюдению отклонялся от фактического значения курса доллара на 5 руб. 62,3 коп. по модулю.
Среднюю относительную ошибку по модулю в процентах вычисляют по следующей формуле:
При этом средняя относительная ошибка по модулю в процентах имеет следующее значение:
Следовательно, прогноз по этой статистической модели в среднем по каждому наблюдению отклонялся от фактического значения курса доллара на 38,98 %. В то время как о хорошем качестве уравнения регрессии можно говорить лишь в том случае, если средняя относительная ошибка по модулю составляет не более 5–7 %[5].
Чтобы окончательно убедиться в непригодности для прогноза этого уравнения регрессии, построим табл. 2.6, в которой дадим прогнозы и фактический курс доллара за период с января 2009 г. по апрель 2010 г.
Судя по табл. 2.6, с января 2009 г. по апрель 2010 г. отклонения от прогноза (остатки), сделанного по уравнению регрессии Yрасч = 0,1622 × 215 + 1,9958, колебались в диапазоне от 98,5 коп. до 7 руб. 57,3 коп., что свидетельствует о невысокой точности этой прогностической модели. Более того, если построить график остатков по линейной прогностической модели, то легко обнаружить, что на нем имеется несколько локальных трендов (рис. 2.2). А это признак — как мы об этом уже говорили — нестационарности полученных остатков.
2.3. Решение уравнений регрессии в Excel графическим способом
Попробуем повысить точность нашего прогноза, используя алгоритм действий № 1 «Как строить диаграммы в Microsoft Excel». С этой целью обведем с помощью мышки столбец с ежемесячными данными (на конец месяца) по курсу пары «рубль — доллар» за период с июня 1992 г. по апрель 2010 г. и столбец с соответствующими обозначениями месяцев. Выбрав опцию ГРАФИК, строим соответствующую диаграмму, а затем щелкаем с помощью мышки по линии графика и выбираем в появившемся окне опцию ДОБАВИТЬ ЛИНИЮ ТРЕНДА (рис. 2.3).
Далее появляется диалоговое мини-окно ФОРМАТ ЛИНИИ ТРЕНДА, в котором мы можем выбрать соответствующие ПАРАМЕТРЫ ЛИНИИ ТРЕНДА (рис. 2.4), необходимые для построения прогностических моделей. При этом воспользуемся всеми имеющимися в Excel форматами тренда за одним-единственным исключением: из полиномиальных трендов возьмем тренды не выше третьей степени. В научной литературе обычно не рекомендуют использовать для аппроксимации фактических данных более сложные полиномы, поскольку они плохо поддаются интерпретации и, несмотря на высокий коэффициент детерминации (по включенной в статистическую модель базе данных), обладают низкой прогностической ценностью.
Сначала построим самый простой линейный тренд. С этой целью выберем в окне ФОРМАТ ЛИНИИ ТРЕНДА в опции ПАРАМЕТРЫ ЛИНИИ ТРЕНДА формат ЛИНЕЙНАЯ. При этом поставим галочку в опциях ПОКАЗЫВАТЬ УРАВНЕНИЕ НА ДИАГРАМММЕ, ПОМЕСТИТЬ НА ДИАГРАММУ ВЕЛИЧИНУ ДОСТОВЕРНОСТИ АППРОКСИМАЦИИ (R^2)[6]. В результате получим диаграмму (рис. 2.5), показывающую линейный тренд, т. е. линейную зависимость роста курса доллара от времени (порядковый номер 1 — июнь 1992 г.).
Поочередно задавая различные параметры тренда и сравнивая коэффициенты детерминации, составим табл. 2.7, в которой разместим по мере роста коэффициента детерминации прогностические модели с различным форматом тренда. Наиболее высокий коэффициент детерминации соответствует уравнению регрессии, полученному путем аппроксимации по степенному тренду. В этом случае R2 оказался равен 0,919136, т. е. это уравнение регрессии объясняет 91,91 % всех ежемесячных колебаний курса доллара. Соответственно доля случайной компоненты оказалась равна: 100 % — 91,91 % = 8,09 %.
Чтобы правильно интерпретировать уравнения регрессии, полученные графическим способом, необходимо иметь в виду, что в процессе построения тренда программа Excel автоматически задает в качестве зависимой переменной у ежемесячный курс доллара, а в качестве независимой х — порядковый номер месяца. Например, экономическая интерпретация уравнения регрессии со степенной функцией у = 0,0443609х1,2807295 следующая: курс доллара в период с июня 1992 г. по апрель 2010 г. ежемесячно рос со средней скоростью 1,28 % при исходном уровне 4,44 коп.[7]
Как мы уже убедились, графический способ решения уравнения регрессии в программе Excel позволяет довольно существенно экономить время. Однако у этого способа есть и один весьма существенный недостаток, обусловленный тем, что при этом не проводится оценка статистической значимости как в целом уравнения регрессии, так и его коэффициентов.
Таким образом, графический способ решения уравнения регрессии целесообразно использовать на этапе предварительного отбора уравнений регрессии, имеющих наиболее высокий коэффициент детерминации. После отбора уравнения регрессии с высоким коэффициентом детерминации в Excel его нужно решить, используя в Пакете анализа опцию РЕГРЕССИЯ (см. алгоритм действий № 3). Однако решение уравнения регрессии, аппроксимирующего фактические данные степенным трендом, имеет определенную специфику. В отличие от линейного тренда уравнение регрессии решается не относительно имеющихся исходных данных, а по отношению к их логарифмам. Объясняется это тем, что уравнение регрессии со степенным трендом относится по оцениваемым параметрам к нелинейным моделям, но путем логарифмирования его можно привести к линейному виду.
В результате уравнение регрессии для степенного тренда (см. табл. 2.7) приобретет следующий вид:
Следует иметь в виду, что приведение нелинейной функции к линейному виду с помощью логарифмирования используется очень часто, хотя это и приводит к некоторым коллизиям. Вот что пишут по этому поводу Е.М. Четыркин и И.Л. Калихман: «Однако такое преобразование приводит к тому, что оценка параметров базируется не на минимизации суммы квадратов отклонений, а на минимизации суммы квадратов отклонений в логарифмах…Следствием этого является некоторое смещение оценок параметров, получаемых обычным (линейным) МНК»[8].
Далее параметры этого уравнения регрессии находятся согласно формулам (2.1.4) и (2.1.5) либо решаются с помощью соответствующей компьютерной программы.
Поэтому прежде чем приступить к выполнению алгоритма действий № 3 «Как решить уравнение регрессии в Excel», нужно взять натуральные логарифмы (логарифмы, основанием которых служит число е = 2,71828) как от независимой переменной х — порядковый номер месяца, так и от зависимой переменной у — курс доллара. В Excel для этих целей можно воспользоваться функцией LN. Далее поступаем в полном соответствии с алгоритмом действий № 3, а данные, полученные после решения уравнения регрессии, занесем в табл. 2.8.
Согласно алгоритму действий № 4 «Оценка статистической значимости уравнения регрессии и его коэффициентов», проведем проверку статистической значимости этого уравнения регрессии. При этом выделим в табл. 2.8 все важнейшие пункты жирным шрифтом. В результате мы приходим к выводу, что у нас получились статистически значимыми уравнение регрессии и его коэффициенты как при 95 %-ном, так и 99 %-ном уровне надежности. Правда, поскольку уравнение регрессии мы решили относительно натуральных логарифмов, взятых от исходных данных, то в результате оно приобрело следующий вид:
LnY = -3,1154 + 1,28073 lпХ
Согласно последнему уравнению регрессии, прогноз курса доллара рассчитывается на основе логарифмов, взятых от исходных данных. Например, прогноз относительно апреля 2010 г. вычисляется следующим образом:
LnY = -3,1154 + 1,28073 × 5,370638 = 3,762939,
где 5,370638 = ln (215) — натуральный логарифм от порядкового номера апреля 2010 г. — 215.
Отсюда находим (в Excel потенцирование натуральных логарифмов производится с помощью функции ЕХР), что прогноз курса доллара на апрель 2010 г. равен
Y = ЕХР (3,762939) = 43,07482.
После проведения соответствующих преобразований уравнение регрессии приобретет следующий вид:
Y = ЕХР (-3,1154 + 1,28073 lnХ) = 0,044361 × X^1,28073.
С помощью последнего уравнения регрессии можно делать расчет прогнозов непосредственно от исходных данных, а не от их натуральных логарифмов. В результате можно получить следующий прогноз курса доллара на апрель 2010 г.:
Y =0,044361 × 215^1,28073,
где 215 — порядковый номер апреля 2010 г. (июнь 1992 г. — 1).
Несмотря на то что коэффициент детерминации у степенного уравнения регрессии выше, чем у линейного, однако, например, относительно апреля 2010 г. прогноз по этому уравнению регрессии весьма сильно отклоняется от фактического курса доллара, как впрочем, и во многих других случаях. Судя по табл. 2.9, с января 2009 г. по апрель 2010 г. отклонения от прогноза (остатки), сделанного по уравнению регрессии Yрасч = 0,044361 — X^1,28073, колебались в диапазоне от -3,7954 руб. до -13,7862 руб., что свидетельствует о невысокой точности этой прогностической модели.
При этом средняя абсолютная ошибка прогноза по модулю для степенной статистической модели (см. формулу (2.20)) оказалась равна 5 руб. 92,4 коп. Следовательно, этот показатель для анализируемой модели оказался на 30 коп. больше, чем у линейной модели. В свою очередь средняя относительная ошибка по модулю в процентах (см. формулу (2.20)) для степенной модели оказалась равна 31,10 %, т. е. на 7,78 процентных пункта ниже, чем у линейной модели. Более того, если построить график остатков по степенной прогностической модели (рис. 2.6), то легко обнаружить, что на нем наблюдается несколько локальных трендов. А это — как мы говорили ранее — наглядно свидетельствует о нестационарности остатков.
Отсюда можно сделать вывод, что не только линейная модель, но и степенная модель, в которой в качестве независимой переменной использовался фактор времени (порядковый номер месяца), оказались непригодны для прогнозирования курса доллара. Все это заставляет нас продолжить поиск адекватной прогностической модели.
Контрольные вопросы и задания1. В чем суть метода наименьших квадратов, как этот метод можно представить графически?
2. Перечислите все пункты алгоритма действий, которые необходимо выполнить при решении уравнения регрессии в Microsoft Excel.
3. Какое уравнение регрессии (при прочих равных условиях) точнее: то, которое имеет коэффициент детерминации (R-квадрат) = 0,757, либо то, у которого R-квадрат равен 0,978? Объясните почему?
4. Можно ли признать статистически значимым уравнение регрессии в том случае, если значимость его F-критерия = 0,049? И если можно, то с каким уровнем надежности?
5. В каком случае делается вывод о статистической значимости коэффициентов уравнения регрессии? При каком Р-значении коэффициенты уравнения регрессии являются статистически значимыми с 95 %-ным и 99 %-ным уровнем надежности?
6. Перечислите форматы трендов, используемых в Excel при решении уравнений регрессии графическим способом. Чем эти форматы трендов отличаются друг от друга?
Глава 3 Уравнения авторегрессии и авторегрессии со скользящим средним
3.1. Специфика уравнений авторегрессии (AR)
Во главе 2 мы убедились, что использование фактора времени для прогноза курса доллара не дает достаточно точного результата, поэтому необходимо найти более подходящую независимую переменную (или переменные). Как известно, согласно теории эффективного рынка, наиболее полную информацию для прогноза будущей стоимости какого-либо финансового актива в момент времени t можно извлечь из его цены в момент времени t-1. Причем точность прогноза уменьшается по мере того, как прогноз делается в моменты времени t-2, t-3 и т. д. Исходя из этого вполне очевидного постулата можно прийти к выводу, что наиболее полную информацию о курсе доллара на момент времени t содержит его курс на момент времени t-1. Следовательно, наиболее точный прогноз курса американской валюты можно рассчитать на основе уравнения регрессии, включив в него в качестве независимой переменной курс доллара с лагом t-1. Такого рода уравнения регрессии, в которых значения результативного признака прогнозируются на основе его предыдущих значений, в статистической литературе называют уравнениями авторегрессии.
Правда, в отличие от прогностической модели, в которой в качестве независимой переменной используется фактор времени, а потому горизонт для прогноза практически безграничен, прогноз по авторегрессионной модели имеет небольшой временной горизонт для прогноза, равный длине лага. В частности, модель авторегрессии с лагом в один месяц способна давать прогноз с упреждением в один месяц.
Помимо относительно небольшого временного горизонта для прогноза в процессе построения моделей авторегрессии возникает еще одна серьезная проблема. Дело в том, что наличие лаговых значений зависимой переменной в правой части уравнения приводит к нарушению одной из важнейших предпосылок метода наименьших квадратов (МНК) — об отсутствии связи между зависимой (результативной) и независимой (факторной) переменными. Если перейти к языку формул, то теоретически эта проблема может быть изложена следующим образом:
Yt= c + bYt-1 + e, (3.1)
где с — свободный член (константа) уравнения;
Yt — зависимая (результативная) переменная;
Yt-1 — независимая (факторная) переменная с лагом в один месяц;
b — соответствующий коэффициент при Yt-1,
еt — отклонение прогноза от фактического курса доллара (остаток) в текущем месяце t.
Таким образом, из формулы (3.1) следует, что в уравнении авторегрессии может иметь место, во-первых, зависимость между et и еt-1, т. е. может быть нарушена предпосылка МНК об отсутствии автокорреляция в остатках; во-вторых, может появиться зависимость между факторной переменной Y, и остатками et, т. е. будет нарушена предпосылка МНК о гомоскедастичности[9] остатков.
Наличие автокорреляции в остатках означает определенную связь (корреляцию) между остатками текущих и предыдущих наблюдений. При наличии такой зависимости остатки могут содержать определенную тенденцию либо какие-то циклические колебания. В этом случае делается вывод, что отклонения от прогноза не могут иметь случайный характер. При наличии автокорреляции в остатках оценки коэффициентов уравнения регрессии нельзя назвать состоятельными и эффективными.
Гомоскедастичность остатков означает, что дисперсия остатков Et не изменяется в зависимости от величины факторной переменной Yt_\. Если это не так, то возникает гетероскедастичностъ остатков, что так же, как и в случае автокорреляции в остатках, влияет на состоятельность оценки коэффициентов уравнения регрессии.
Для справки заметим, что состоятельными называются такие оценки, чья точность повышается по мере роста объема выборки, объема данных, на основе которых строится уравнение регрессии. В свою очередь эффективными называются такие оценки, которые имеют наименьшую дисперсию.
Несмотря на высказанные опасения, многие авторитетные специалисты полагают, что в случае больших выборок уравнения авторегрессии позволяют получать состоятельные и эффективные оценки. Вот как, например, оценивает авторегрессионные модели профессор статистики Стэнфордского университета Т. Андерсон: «Модель авторегрессии обладает рядом преимуществ по сравнению с моделью скользящего среднего и процессом авторегрессии с остатками в виде скользящего среднего, хотя последние в определенных случаях могут хорошо описывать образование наблюдаемых временных рядов. Оценки коэффициентов процесса авторегрессии легко вычисляются. Статистические процедуры для такого процесса, основывающиеся на теории больших выборок, легко выполнимы, поскольку они соответствуют обычной технике наименьших квадратов. Во многих случаях коэффициенты процесса авторегрессии допускают непосредственную интерпретацию, а линейные функции от запаздывающих переменных могут быть использованы для прогнозирования»[10].