Как предсказать курс доллара. Эффективные методы прогнозирования с использованием Excel и EViews - Владимир Брюков 7 стр.


3.7. Оценка точности решения уравнения авторегрессии в EViews

Важным критерием оценки эффективности статистической модели является уровень точности, получаемый с помощью определенной статистической модели при прогнозе курса доллара. Его в EViews можно оценить с помощью алгоритма действий № 8.

Алгоритм действий № 8 Как оценить точность статистической модели в EViews Шаг 1. Выбор необходимой опции

Чтобы оценить точность статистической модели, нужно в строке 3 EQUATION (уравнение) выбрать опцию FORECAST.

Шаг 2. Заполнение мини-окна FORECAST.

В результате откроется мини-окно FORECAST, которое следует заполнить таким образом (рис. 3.6).

По умолчанию в опции FORECAST NAME (название файла с прогнозом) задается название файла с точечным прогнозом путем прибавления к исходному файлу латинской буквы f. Например, если у нас исходный файл — USDollar, то название файла с прогнозом будет задано программой как USDollarf. В опции FORECAST SAMPLE (выборка для прогноза) по умолчанию задается исходная выборка данных для прогноза, которую при необходимости можно изменить. В опции METHOD (метод прогноза) нам следует выбрать STATIC FORECAST (статичный прогноз), т. е. мы оцениваем точность прогноза только на один следующий месяц. Если в опции METHOD выбрать вариант DYNAMIC FORECAST (динамичный прогноз), то это увеличило бы временной горизонт для прогноза, но его точность существенно снизилась бы. Дело в том, что при динамическом прогнозировании предсказание на следующий месяц составляется так же, как и при статичном, но прогнозы на более длительные сроки составляются на основе расчетных, т. е. предсказанных, а не фактических значений независимой переменной.

В опции OUTPUT (вывод итогов) мы задали вариант FORECAST EVALUATION (оценка прогноза) и получили таблицу с оценкой точности прогноза этой статистической модели (см. табл. 3.6). При необходимости в последней опции можно задать еще и вариант FORECAST GRAPH (график прогнозов), после чего можно получить и график с прогнозами.

Шаг 3. Интерпретация параметров, характеризующих уровень точности статистической модели

Чтобы по табл. 3.6 вынести суждение о качестве статистической модели, сначала нужно ознакомиться с табл. 3.5. Причем в первую очередь следует обратить внимание на раздел этой таблицы «Идеальное значение параметра». Из него можно сделать вывод: чем ближе стремятся к нулю параметры, представленные в табл. 3.6, тем выше прогностическая ценность статистической модели. Единственным исключением из этого правила является параметр Covariance Proportion (доля ковариации, т. е. доля несистематической ошибки), для которого идеальным значением является единица.

В алгоритме действий № 8 «Как оценить точность статистической модели в EViews» в самом общем виде уже говорилось об интерпретации параметров, характеризующих уровень точности статистической модели. Однако далее все желающие могут более подробно ознакомиться со спецификой параметров, содержащихся в табл. 3.6. «Оценка точности уравнения регрессии (статистической модели) с параметрами USDollar = 0,2260 + 1,2980 USDollar(-l) — 0,3047 USDollar(-2)».

В частности, Root Mean Squared Error (квадратный корень средней ошибки предсказания) представляет собой квадратный корень из суммы квадратов остатков (разницы между фактическим и предсказанным значением), деленной на общее количество наблюдений. Квадратный корень средней ошибки предсказания находят по следующей формуле:

где Yt — фактические значения курса доллара;

Ŷt — предсказанные значения курса доллара;

п — количество наблюдений;

е — ошибки (остатки) или разница между расчетным и фактическим значением курса доллара.

На основе имевшихся у нас данных квадратный корень средней ошибки предсказания по курсу доллара имеет следующее значение:

При этом следует иметь в виду, что величина квадратного корня средней ошибки предсказания всегда чуть больше стандартной ошибки, представленной, например, в «Выводе итогов в Excel для уравнения авторегрессии 2-го порядка AR(2)» (см. табл. 3.2). Это объясняется тем, что квадратный корень средней ошибки предсказания находится путем деления суммы квадратов остатков на общее количество наблюдений. В то время как стандартная ошибка находится путем деления суммы квадратов остатков на число степеней свободы. Так, в нашем случае квадратный корень средней ошибки предсказания равен 0,805567 (при общем числе наблюдений, равном 213), а стандартная ошибка равна 0,811301 (при 210 степенях свободы). Причем число степеней свободы для нашей статистической модели находят следующим образом:

df = п — k — 1 = 213 -2 -1 = 210,

где k — количество факторных переменных в статистической модели.

Mean Absolute Error (средняя ошибка) по модулю представляет собой абсолютную (без учета знака) сумму остатков (ошибок), деленную на общее количество наблюдений. Поскольку при сложении сумма остатков стремится к нулю, для нахождения средней ошибки приходится использовать их модульные значения. Средняя ошибка по модулю вычисляется по формуле

Для нашей статистической модели средняя ошибка по модулю равна:

Mean Absolute Percentage Error (средняя ошибка по модулю, %) равна сумме относительных ошибок (остатков), деленной на общее количество наблюдений. Средняя ошибка по модулю находится следующим образом:

В этом случае средняя ошибка по модулю имеет следующее значение:

Как мы уже говорили, по трем перечисленным выше параметрам — Root Mean Squared Error, Mean Absolute Error и Mean Absolute Percentage Error — выбор обычно делается в пользу той статистической модели, у которой значения этих параметров стремятся к нулю. Вполне очевидно, что чем меньше квадратный корень средней ошибки предсказания, средняя ошибка по модулю и средняя ошибка по модулю (%), тем выше прогностическая ценность модели. При этом следует иметь в виду, что все три перечисленных выше параметра имеют диапазон значений от нуля до бесконечности.

Несколько особняком стоят четыре остальных параметра, представленных в табл. 3.6. Из них главным является Theil Inequality Coefficient (коэффициент неравенства Тейла), в то время как три других можно назвать производными от первого. При этом значения этих четырех параметров изменяются в пределах от нуля до единицы.

Theil Inequality Coefficient служит для общей оценки качества прогностической модели. Как мы уже говорили, идеальным для статистической модели считается значение коэффициента Тейла, равное нулю. Таким образом, чем ближе этот коэффициент к нулю, тем ценнее предсказание.

Коэффициент неравенства Тейла находится по следующей формуле:

В нашем случае коэффициент Тейла имеет следующее значение:

Квадратный корень средней ошибки предсказания может быть разложен на слагаемые по следующей формуле:

где Ŷt — средняя величина фактических значений курса доллара;

Sŷ — стандартное отклонение предсказанных значений курса доллара;

Sy — стандартное отклонение фактических значений курса доллара;

r — коэффициент корреляции между фактическими и предсказанными значениями курса доллара.

Если мы найдем долю (относительно квадратного корня средней ошибки) каждого из трех слагаемых (см. формулу (3.30)), то в этом случае нам удастся вычислить еще три важных параметра, характеризующих качество прогноза, рассчитанного с помощью исследуемой статистической модели.

Так, Bias Proportion (доля систематической ошибки прогноза) служит своего рода индикатором, показывающим, насколько средняя величина прогнозируемого значения, например средняя величина прогноза по курсу доллара, отклоняется от средней величины его фактического значения. Причем идеальной считается ситуация, когда доля систематической ошибки предсказания равна нулю. При этом доля систематической ошибки находится по следующей формуле:

Чтобы найти долю систематической ошибки в предсказаниях, сделанных при помощи этой прогностической модели, нам пришлось проделать следующие вычисления:

Индикатор Variance Proportion (доля вариации) показывает, насколько отличаются друг от друга вариации фактических и предсказываемых значений, например курса доллара. Чем меньше доля этой вариации, тем лучше, а в идеале она должна быть равна нулю. Доля вариации находится по следующей формуле:

В Excel дисперсию и стандартное отклонение для генеральной совокупности данных можно вычислить с помощью соответствующих функций ДИСПР и СТАНДОТКЛОНП.

Индикатор Variance Proportion (доля вариации) показывает, насколько отличаются друг от друга вариации фактических и предсказываемых значений, например курса доллара. Чем меньше доля этой вариации, тем лучше, а в идеале она должна быть равна нулю. Доля вариации находится по следующей формуле:

В Excel дисперсию и стандартное отклонение для генеральной совокупности данных можно вычислить с помощью соответствующих функций ДИСПР и СТАНДОТКЛОНП.

В нашей статистической модели доля вариации в предсказаниях оказалась равна:

Индикатор Covariance Proportion (доля ковариации) показывает долю несистематической ошибки в общей величине дисперсии ошибки предсказания. Поскольку этот индикатор показывает долю несистематической, остаточной ошибки в предсказаниях, которая присутствует во всех статистических моделях, то ее наличие не требует отказа от использования этого уравнения регрессии. Доля несистематической ошибки прогноза изменяется в диапазоне от 0 до 1. Причем в идеале этот показатель должен быть равен единице, чем он и отличается от всех остальных индикаторов, представленных в табл. 3.6.

В общем виде доля ковариации в предсказаниях находится следующим образом:

где r — коэффициент корреляции между фактическими и предсказанными значениями курса доллара.

При этом по формуле (3.31) доля ковариаций в предсказаниях равна:

Следует также иметь в виду, что доля систематической ошибки прогноза, доля вариации и доля ковариации в сумме равняются единице. В виде формулы это соотношение можно представить следующим образом:

Bias Proportion + Variance Proportion + Variance Proportion = 1. (3.32)

Следовательно, когда доля ковариации равна единице, это означает, что доля вариации и доля систематической ошибки в прогнозах равны нулю. В этом случае можно было бы сделать вывод об идеальном качестве полученных прогнозов, чего на практике, как правило, не бывает. Используя преобразованную формулу (3.32), можно быстрее найти долю ковариации, чем по формуле (3.31). В результате долю ковариации в наших прогнозах можно также вычислить более простым способом:

Covariance Proportion = 1 — (Bias Proportion + Variance Proportion) = 1 -0-0,001166 = 0,998834.

В заключение остановимся на содержательной интерпретации индикаторов, представленных в табл. 3.6. Из этой таблицы можно сделать вывод, что квадратный корень средней ошибки предсказания по курсу доллара после округления оказался равным 0,8056 руб., или 80,56 коп., в то время как средняя ошибка по модулю — 0,3607 руб., или 36,07 коп. В свою очередь средняя ошибка предсказания по модулю равна 4,80 %. Напомним, что ошибка аппроксимации в пределах 5–7 % свидетельствует о хорошем соответствии статистической модели исходным данным.

Коэффициент неравенства Тейла, фактически являющийся индексом, в этой таблице равен 0,0175, т. е. его значение довольно близко подходит к нулю, что говорит о хорошем качестве предсказания. При этом доля систематической ошибки в предсказаниях равна 0 или 0 %, в то время как доля вариации равна 0,0012, или 0,12 %, а доля ковариации — 0,9988, или 99,88 %.

Судя по табл. 3.6, с помощью двухфакторного уравнения регрессии со свободным членом нам удалось получить довольно качественную прогностическую модель. Тем не менее точность этой авторегрессионной модели можно повысить, причем довольно существенно.

Контрольные вопросы и задания

1. Какие уравнения называются уравнениями авторегрессии? Являются ли уравнения авторегрессии частным случаем уравнений регрессии? В чем преимущество использования в прогнозах лаговой переменной с точки зрения теории эффективного рынка?

2. Какая предпосылка метода наименьших квадратов (МНК) не соблюдается в уравнениях регрессии? В каких случаях с помощью уравнения авторегрессии можно получать состоятельные и эффективные оценки?

3. Что означают англоязычные аббревиатуры AR и ARMA? Чем отличается модель AR от модели ARMA? Какие переменные входят в модель ARMA(2; 1)?

4. Для чего необходима коррелограмма? В чем отличие автокорреляции от частной автокорреляционной функции? Что измеряет коэффициент автокорреляции уровней 1-го порядка?

5. Как производится идентификации моделей AR(p) и ARMA(p, q) с помощью коррелограммы? Как при этом используются автокорреляция и частная автокорреляция?

6. Почему критерий Дарбина — Уотсона нельзя использовать для тестирования уравнений авторегресии на наличие автокорреляции в остатках? Какой тест на наличие автокорелляции в остатках в уравнениях авторегрессии используется в EViews? Какой лаг нужно задать в этом тесте при тестировании уравнения авторегрессии 2-го порядка?

7. Как находится квадратный корень средней ошибки предсказания? Почему для нахождения средней ошибки приходится использовать их модульные значения? Как находится средняя ошибка по модулю (%)? Для чего используется коэффициент неравенства Тейла? Какое значение коэффициента неравенства Тейла считается идеальным для статистической модели?

Глава 4 Подбор адекватного уравнения авторегрессии и составление точечных и интервальных прогнозов по курсу доллара

4.1. Повышение статистической значимости коэффициентов в уравнении авторегрессии

Одним из способов повышения точности статистической модели является увеличение количества переменных, включаемых в уравнение регрессии. Однако в табл. 3.1 «Коррелограмма исходных уровней временного ряда USDollar с величиной лага от 1 до 36» хорошо видно, что коэффициент частной автокорреляции уже на лаге в три месяца становится близким к нулю. Отсюда следует вывод, что нет никакого смысла добавлять в уравнение авторегрессии 2-го порядка AR(2) со свободным членом факторную лаговую переменную с лагом в три месяца и более.

Вместе с тем вывод итогов как в Excel, так и в EViews для этого уравнения свидетельствует, что величина P-значений включенных в него коэффициентов далеко не одинакова (см. табл. 3.2 и 3.3). Так, Р-значения для коэффициентов регрессии факторных переменных USDollar(-l) и USDollar(-2) практически равны нулю, что свидетельствует об их статистической значимости с 99 %-ным уровнем надежности. А вот Р-значение для коэффициента свободного члена (константы) этого уравнения регрессии равно 0,037226, что свидетельствует о его статистической значимости лишь с 95 %-ным уровнем надежности (точнее сказать, с 96,28 %-ным уровнем надежности: 100 %-3,72 %).

Следовательно, чтобы повысить точность наших прогнозов, мы попробуем решить уравнение регрессии, исключив из формулы (3.14) статистически менее значимый свободный член. С этой целью необходимо воспользоваться алгоритмом действий № 6 «Как решить уравнение регрессии в EViews» (см. главу 3), но при выборе параметров оцениваемой статистической модели (см. шаг 3 этого алгоритма) мини-окно EQUATION SPECIFICATION нужно заполнить следующим образом:

USDollar USDollar(-l) USDollar(-2). (4.1)

Фактически в буквенной форме формула (4.1) приобретет следующий вид:

USDOLLAR = а × USDOLLAR(-l) + b × USDOLLAR(-2). (4.2)

Причем, введя спецификацию (4.1) в EViews, мы тем самым даем программе задание оценить коэффициенты а и b из формулы (4.2). В результате EViews выдает итоги, которые заносятся в табл. 4.1. На основе данных этой таблицы мы получаем уравнение авторегрессии 2-го порядка AR(2) без константы со следующими параметрами:

USDOLLAR = 1,321092 × USDOLLAR(-l) — 0,319415 × USDOLLAR(-2), (4.3)

где USDollar — зависимая переменная, курс доллара США;

USDollar(-l) — независимая переменная, курс доллара США с лагом в один месяц;

USDollar(-2) — независимая переменная, курс доллара США с лагом в два месяца.

Экономическая интерпретация этого уравнения авторегрессии 2-го порядка следующая: во-первых, в период с июня 1992 г. по апрель 2010 г. рост на 1 руб. курса доллара в текущем месяце приводил к повышению прогнозируемого курса доллара в будущем месяце в среднем на 1,3210 руб.; во-вторых, одновременно с этим рост курса доллара в прошлом месяце приводил к снижению прогнозируемого курса доллара в будущем месяце в среднем на 0,3194 руб.

Судя по табл. 4.1, все коэффициенты в этом уравнении имеют Р-значения (Prob.) = 0, а следовательно, можно сделать вывод, что они значимы с 99 %-ным уровнем надежности. Вполне очевидно, этого нам удалось добиться благодаря тому, что мы убрали из уравнения авторегрессии свободный член. Но как этот факт повлиял в целом на прогностические качества этой статистической модели?

Если посмотреть на коэффициент детерминации R2 (R-squared), то видно, что после удаления константы он уменьшился весьма незначительно: с 99,53 % (0,9953) до 99,52 % (0,9952), или на 0,01 процентного пункта. Еще меньше снизился скорректированный коэффициент детерминации R2 (Adjusted R-squared). Вместе с тем в уравнении авторегрессии без свободного члена незначительно снизился логарифм максимального правдоподобия (его более высокое значение, как правило, свидетельствует о более высоком качестве прогноза) и одновременно с этим незначительно повысилась величина информационного критерия Акаика (его более низкое значение, как правило, свидетельствует о более высоком качестве прогноза). Однако плюсом для уравнения без константы стал тот факт, что информационный критерий Шварца, который сильнее «штрафует» включение в уравнение регрессии дополнительных факторов, у него оказался ниже (его более низкое значение, как правило, свидетельствует о более высоком качестве прогноза).

Назад Дальше