Как предсказать курс доллара. Эффективные методы прогнозирования с использованием Excel и EViews - Владимир Брюков 9 стр.


Дело в том, что в отличие от обычной гистограммы (столбчатая диаграмма, высота каждого прямоугольника которой пропорциональна частоте распределения в заданном интервале значений) график ядра плотности распределения создается с помощью сглаживания, в ходе которого различным наблюдениям присваиваются определенные веса. При этом соблюдается следующий принцип: чем дальше отдельное наблюдение от оцениваемой «точки», тем более легкий вес ему присваивается. В результате получается диаграмма, приведенная на рис. 4.3, на которой хорошо виден «островершинный» характер ядра плотности распределения остатков.

Для большей наглядности ядро плотности распределения остатков можно сравнить с нормальным распределением, имеющим стандартное ядро плотности распределения (рис. 4.4). С этой целью мы получили в Excel нормальное распределение, используя опции АНАЛИЗ ДАННЫХ/ГЕНЕРАЦИЯ СЛУЧАЙНЫХ ЧИСЕЛ. Сравнив рис. 4.3 и 4.4, легко заметить, что у нормального распределения, во-первых, вершина гораздо более плоская; во-вторых, ядро плотности распределения значительно шире; в-третьих, рассеянное «гало» не столь широко разбросано по краям.

Продолжим анализ характера распределения остатков и с этой целью посмотрим оценку значимости критерия Жарка — Бера, представленную в табл. 4.5. При этом следует иметь в виду, что величина критерия Жарка — Бера служит для проверки нулевой гипотезы о нормальном распределении изучаемого статистического ряда. Тестовая статистика в этом случае измеряет разницу между нормальным распределением и коэффициентами асимметрии и эксцесса, вычисленными для данного статистического ряда. Критерий Жарка — Бера находится по следующей формуле:

где N— количество наблюдений;

А — коэффициент асимметрии;

К— коэффициент эксцесса;

k — количество параметров, использованных для создания данного временнoго ряда.

После этого значение теста Жарка — Бера сравнивают с распределением χ2 (хи-квадрат) с двумя степенями свободы. В том случае, если критерий Жарка — Бера > χ2крипт, то делается вывод о неслучайном характере распределения, а следовательно, нулевая гипотеза о нормальном распределении опровергается. В нашем случае значение теста Жарка — Бера равно 17147,64, а следовательно, если сравнить с соответствующим табличным значением χ2крипт001,2 = 9,21, то рассчитанный нами критерий Жарка — Бера существенно выше последнего.

Впрочем, нам не обязательно заглядывать в таблицу. Чтобы вычислить значимость критерия Жарка — Бера в Excel, достаточно воспользоваться функцией ХИ2РАСП (17147,64; 2) = 0. Ав EViews значимость (Probability) критерия Жарка — Бера, равная нулю, выдается автоматически (см. табл. 4.4).

Поскольку при значимости критерия Жарка — Бера (Probability) < 0,05 нулевая гипотеза о нормальном распределении опровергается с 95 % уровнем надежности, то, следовательно, в нашем случае мы вынуждены отвергнуть гипотезу о нормальном распределении остатков.

В EViews имеется и ряд других тестов, с помощью которых можно провести дополнительную проверку нулевой гипотезы о нормальном распределении. В частности, если в файле RESID воспользоваться опциями VIEW/DISTRIBUTION/EMPIRICAL DISTRIBUTION TESTS… (смотреть/распределение/тесты на проверку характера эмпирического распределения), то мы получим результаты проверки нулевой гипотезы о нормальном распределении остатков с помощью соответствующих тестов Лиллиефорса (Lilliefors), Крамера фон Мизеса (Cramer von Mises), Уотсона (Watson) и Андерсона — Дарлинга (Anderson — Darling). Результаты тестирования занесены в табл. 4.6. Поскольку значимость (Probability) критериев по всем четырем тестам равна нулю, то нулевая гипотеза о нормальном распределении остатков опровергается.

В связи с опровержением нулевой гипотезы возникает вопрос: можно ли в этой ситуации строить интервальные прогнозы по курсу доллара исходя из предположения о нормальном распределении остатков? Вот как на него отвечает известный американский профессор статистики Стэнфордского университета Т. Андерсон: «Приведенные процедуры проверки гипотез и построения доверительных областей были основаны на предположении о том, что наблюдения распределены нормально. Если предположение о нормальности не выполняется, то эти процедуры все же можно применять для больших выборок, используя асимптотическую теорию…

Значение приведенных теорем (доказывающих асимптотическую теорию. — Прим. авт.) состоит в том, что, опираясь на них, обычную теорию для нормального случая при больших объемах выборок можно использовать с достаточной точностью и в тех ситуациях, когда наблюдения не являются нормально распределенными»[11].

Можно ли применить асимптотическую теорию к распределению остатков, полученных с помощью статистической модели USDOLLAR = а × USDOLLAR(-l) + b × USDOLLAR(-2)? Поскольку малой выборкой принято называть выборку, имеющую до 30 степеней свободы, а в нашей выборке имеется 210 степеней свободы, то вполне естественно, что асимптотическую теорию в этом случае можно использовать.

Почему столь важно строить интервальные прогнозы по курсу доллара исходя из предположения о нормальном распределении остатков? Дело в том, что нормальный закон распределения играет важнейшую роль в теории вероятностей. При этом главной особенностью этого закона является тот факт, что он является предельным законом, к которому — при определенных условиях — приближаются другие законы распределения. Предполагая, что остатки распределены согласно закону о нормальном распределении (т. е. их распределение определяется воздействием множества случайных причин), мы тем самым приписываем им следующие свойства, благоприятные для построения интервальных прогнозов.

Во-первых, график плотностей вероятностей нормального распределения (см. рис. 4.4) имеет колоколообразную форму, симметричную относительно средней (математического ожидания) μ. При этом плотность вероятностей нормального распределения определяется по формуле

где s — стандартное отклонение.

Следовательно, плотность вероятностей нормального распределения полностью определяется двумя параметрами остатков — их средней величиной (математического ожидания) μ и стандартным отклонением s.

Во-вторых, график плотностей вероятностей нормального распределения показывает, что для нормально распределенных остатков вероятность отклонения от их средней величины (математического ожидания) μ быстро уменьшается с ростом этого отклонения.

В-третьих, если μ = 0, а стандартное отклонение s = 1, то нормальное распределение с такими параметрами называется нормированным. При этом плотность вероятностей нормированного нормального распределения определяется по следующей формуле:

В-четвертых, если функцию нормированной плотности вероятностей распределения f(x) перевести в проценты (при 1 = 100 %), а затем построить график плотности вероятностей нормированного нормального распределения, то мы получим диаграмму, изображенную на рис. 4.5.

Исходя из этого рисунка можно прийти к выводу: если мы будем суммировать (интегрировать) вероятность попадания остатка в область интервального прогноза при стандартном отклонении s, то выяснится, что в этом случае в область интервального прогноза попадет 68,17 % всех нормально распределенных остатков. Соответственно при стандартном отклонении s = ± 2 в область интервального прогноза попадет 95,45 % всех нормально распределенных остатков, а при стандартном отклонении s = ± 3 в область интервального прогноза попадет 99,73 % всех нормально распределенных остатков. Заметим также, что чаще всего интервальные прогнозы строят исходя из 95 %-ного уровня надежности при нормированном стандартном отклонении, равном 1,96; либо при 99 %-ном уровне надежности при нормированном стандартном отклонении, равном 2,58; либо при 99,9 %-ном уровне надежности при нормированном стандартном отклонении 3,29.

4.4. Построение точечных и интервальных прогнозов

Таким образом, предположение о нормальном распределении остатков позволяет нам строить интервальные прогнозы исходя из определенных доверительных интервалов, точность которых можно проверить. Именно этим мы сейчас и займемся.

Однако прежде чем перейти к составлению интервальных прогнозов, нам необходимо исходя из уже решенного уравнения регрессии (4.3) составить точечный прогноз на май 2010 г. Последняя дата выбрана не случайно, так как это позволяет нам смоделировать ситуацию реального прогноза. Дело в том, что в этом случае в качестве базы данных мы использовали информацию по ежемесячному курсу доллара за период с июня 1992 г. по апрель 2010 г., а точечный прогноз составили на май 2010 г. Именно по такой схеме обычно в реальной жизни и делаются прогнозы.

Однако прежде чем перейти к составлению интервальных прогнозов, нам необходимо исходя из уже решенного уравнения регрессии (4.3) составить точечный прогноз на май 2010 г. Последняя дата выбрана не случайно, так как это позволяет нам смоделировать ситуацию реального прогноза. Дело в том, что в этом случае в качестве базы данных мы использовали информацию по ежемесячному курсу доллара за период с июня 1992 г. по апрель 2010 г., а точечный прогноз составили на май 2010 г. Именно по такой схеме обычно в реальной жизни и делаются прогнозы.

Алгоритм действий № 11 Как в EViews построить точечный прогноз

С помощью опции FORECAST находим точечный прогноз на будущий месяц. В EViews точечные прогнозы выдаются автоматически: сразу же после использования опции FORECAST (см. алгоритм действий № 8 «Как оценить точность статистической модели в EViews») у нас в рабочем файле появляется файл USDollarf. Поскольку в качестве конечной даты для прогноза нас интересует май 2010 г., то при этом нужно проследить, чтобы в опции FORECAST SAMPLE (выборка для прогноза) последней датой был именно этот месяц, который в EViews обозначается как 2010m05 (рис. 4.6). Таким образом, открыв файл USDollarf, мы увидим предсказанные значения курса доллара с августа 1992 г. (прогноз на июнь и июль 1992 г. не строится из-за потери двух наблюдений, обусловленной созданием двух факторных лаговых переменных) по май 2010 г. В результате мы выяснили, что точечный прогноз курса доллара на конец мая 2010 г. у нас равен 29 руб. 31,37 коп. Этот прогноз на май 2010 г. (как, впрочем, и точечные прогнозы на другие месяцы) был рассчитан путем подстановки в формулу (4.3) соответствующих значений переменных:

USDOLLAR = 1,321092 × USDOLLAR(-1) — 0,319415 × USDOLLAR(-2) × USDOLLAR = 1,321092 × 29,28860 — 0,319415 × 29,36380 = 29,31370.

Алгоритм действий № 12 Как в EViews построить интервальные прогнозы Шаг 1. Как найти средние ошибки прогнозируемого курса доллара

Чтобы одновременно с точечным прогнозом вычислить величину интервального прогноза, нам следует в мини-окне FORECAST (см. шаг 2 алгоритма действий № 8 — заполнение мини-окна FORECAST) использовать дополнительную опцию S.E. (optional). Например, написать в этой опции аббревиатуру SE в качестве названия для нового файла, в который мы собираемся поместить средние ошибки прогнозируемого индивидуального значения курса доллара (рис. 4.7). В отличие от широко используемого (из-за простоты в расчетах) стандартного отклонения средняя ошибка прогнозируемого индивидуального значения включает не только стандартную ошибку, но и случайную ошибку (см. далее — «Математические подробности, связанные с расчетом интервальных прогнозов»), а потому делает интервал прогноза более надежным. Причем разница между стандартным отклонением и средней ошибкой прогнозируемого индивидуального значения нарастает из-за резких колебаний факторной переменной (предыдущего значения курса доллара), в то время как в обычные периоды она незначительна.

В результате появится файл SE, открыв который можно увидеть значения средних ошибок прогнозируемого индивидуального значения курса доллара. Они показаны в табл. 4.7, правда, в целях экономии приведены данные только за 1992 и 2010 гг., в то время как в EViews они приводятся полностью.

Шаг 2. Вычисление интервальных прогнозов

После нахождения средней ошибки прогнозируемого индивидуального значения курса доллара на май 2010 г. следующей задачей является определение доверительного интервала прогноза, величина которого зависит от заданного уровня надежности. При этом границы доверительного интервала для 95 %-ного уровня надежности (в случае необходимости и для иных уровней надежности) и для степеней свободы п = 214 — k -1 = 214-2-1 = 211 (где 214 — количество наблюдений во временнбм ряде, а k — количество факторных переменных) в Excel находятся с помощью функции СТЬЮДРАСПОБР, которая возвращает двустороннее значение t-критерия Стьюдента как функцию вероятности и числа степеней свободы. Двустороннее значение t-критерия в этом случае используется, поскольку необходимо определить двусторонний интервал (Нижняя граница интервального прогноза ≤ Фактический курс доллара ≤ Верхняя граница интервального прогноза), в котором прогнозируемый курс доллара должен оказаться с 95 %-ным уровнем надежности. (Для справки заметим, что односторонний t-критерий используется в том случае, если мы поставим перед собой задачу найти такое значение Y, которое с определенным уровнем надежности будет больше X; либо, напротив, прямо противоположную задачу — когда Y будет меньше X. Односторонний критерий менее консервативен, поскольку когда мы вычисляем (с определенным уровнем надежности) вероятность того, что значение Y > X, то в этом случае вероятность того, что значения Y < Х, в расчетах не учитывается. Это же происходит и при расчетах вероятности того, что значения Y < Х.)

Таким образом, в нашем случае ^-значение находится следующим образом:

СТЬЮДРАСПОБР(1–0,95 = 0,05; 211) = 1,9713.

(При определении границы доверительного интервала, например с 99 %-ным уровнем надежности Означение имеет следующую величину: СТЬЮДРАСПОБР(1–0,99 = 0,01; 211) = 2,5993. Вполне очевидно, что таким образом можно найти двусторонние t-значения для любого заданного уровня надежности.)

После того как мы нашли t-значение для 95 %-ного уровня надежности, появляется возможность составить интервальный прогноз на конец мая 2010 г., т. е. вычислить как нижнюю, так и верхнюю границу прогноза курса доллара на эту дату:

Математические подробности, связанные с расчетом интервальных прогнозов

Тем, кому интересно знать, как мы получили табл. 4.7, дадим необходимое пояснение. EViews вычисляет среднюю ошибку индивидуального значения курса доллара следующим образом:

где X — матрица исходных значений факторных переменных по всему временному ряду;

XT — транспонированная матрица исходных значений факторных переменных по всему временному ряду;

Xt — матрица-столбец значений факторных переменных для момента времени t,

ХtT — транспонированная матрица-столбец значений факторных переменных для момента времени t,

S — стандартное отклонение уравнения регрессии.

При этом стандартное отклонение уравнения регрессии находим по формуле

где е — остатки (или отклонения прогноза от фактического значения курса доллара);

п — количество наблюдений.

Для справки заметим, что в Excel умножение матриц производится с помощью функции МУМНОЖ, а обратная матрица (ХTХ)-1 находится с помощью функции МОБР.

Для нашего случая Х-матрицу исходных факторных значений по всему временному ряду в EViews можно найти, воспользовавшись опциями EQUATION/PROC/MAKE REGRESSOR GROUP (уравнение/выполнить/ создать группу регрессоров).

В результате этого мы получим три столбца с результативной переменной USDOLLAR и факторными переменными USDOLLAR(-l) и USDOLLAR(-2) за весь период с июня 1992 г. по апрель 2010 г. Убрав столбец с результативной переменной, мы тем самым получили Х-матрицу исходных факторных значений по всему временному ряду (табл. 4.8). Правда, в целях экономии места в этой таблице представлены данные лишь за 1992 и 2010 гг. Причем крайний правый столбец с датировкой наблюдений здесь нами дан только для справки, а в Х-матрицу исходных факторных значений входят только два столбца, выделенные жирным шрифтом, с двумя факторными переменными. Следует также заметить, что если бы уравнение регрессии было с константой, то в табл. 4.8 нам пришлось бы поместить дополнительный столбец с единичным вектором.

В свою очередь XT — транспонированная матрица исходных факторных значений по всему временному ряду. По определению она представляет собой матрицу, столбцами которой являются строки Х-матрицы исходных факторных значений по всему временному ряду. Кстати, в Excel транспонированную матрицу XT можно получить следующим образом: обвести значения исходной матрицы X, скопировать их, а затем, вставляя данные, выбрать в мини-окне СПЕЦИАЛЬНАЯ ВСТАВКА опцию ТРАНСПОНИРОВАТЬ (рис. 4.8).

Следует также иметь в виду, что при расчете средней ошибки индивидуального значения курса доллара на май 2010 г. — матрица-столбец факторных значений для момента времени t приобретает следующий вид:

ХtT-матрица-строка факторных значений для момента времени t в этом случае выглядит таким образом:

Назад Дальше