Перед импортом данных экселевский файл нужно обязательно закрыть, поскольку иначе появится сообщение об ошибке. При работе в последних версиях EViews в командной строке этой программы нужно воспользоваться опцией IMPORT/IMPORT FROM FILE. После открытия экселевского файла появится окошко EXCEL READ — Step 1 of 3 (рис. 1.5), в котором следует выбрать одну из двух опций: PREDEFINED RANGE (предопределенный диапазон) или CUSTOM RANGE (обычный диапазон). В случае выбора PREDEFINED RANGE в EViews загружаются уже выбранные программой данные, а если вы воспользуетесь опцией CUSTOM RANGE, то в этом случае можно самому выбрать требуемый диапазон данных, в том числе внести необходимые правки в опции SHEET (лист), START CELL (начальная ячейка), END CELL (конечная ячейка).
Если вы работаете в более ранних версиях EViews, то при импорте данных в командной строке нужно выбрать опции FILE/IMPORT/READ TEXT-LOTUS-EXCEL. После этого появится новое диалоговое окно EXCEL SPREADSHEET IMPORT (импорт листа Excel). В открывшемся диалоговом окне (рис. 1.6) нужно отметить в мини-окне EXCEL5+ SHEET NAME название листа, которое у нас обозначено как sheetl. В миниокне NAMES FOR SERIES OR NUMBER IF NAMED IN FILE (название для серии данных или номер серии данных, если у нее есть название в файле) поставим цифру 1, поскольку мы импортируем лишь одну серию данных, которую уже назвали USDollar. В остальных мини-окнах соответствующие опции в EViews устанавливаются по умолчанию. В частности, в мини-окне UPPER-LEFT DATA CELL (верхняя левая ячейка сданными) по умолчанию указывается ячейка В2.
Более подробно обо всех нюансах импорта данных из Excel в EViews можно прочитать, например, в книге М.Ю. Турунцевой «Анализ временных рядов»[1].
Поскольку мы уже создали рабочий файл в EViews, то построить график курса доллара, аналогичный экселевскому (см. рис. 1.2), не представляет особого труда. В рабочем файле (Workfile) EViews открываем файл USDollar, после чего используем для построения диаграммы в виде графика (LI NE) опции VIEW/GRAPH/LI NE (рис. 1.7).
В результате у нас получилась диаграмма (рис. 1.8), вполне аналогичная (если не считать различные типы форматирования, использованные при создании этих двух графиков) диаграмме на рис. 1.2, построенной в Excel. Чтобы сохранить полученную диаграмму в EViews на отдельном листе, следует нажать верхнюю кнопку FR EEZE (окончательно принять).
Таким образом, построив соответствующие графики в EViews и Excel, мы выяснили, что временной ряд, характеризующий динамику ежемесячного курса доллара, является нестационарным, поскольку в нем наблюдается ярко выраженный тренд. Вместе с тем, как уже говорилось ранее, нестационарный временной ряд содержит не только тренд, но и случайную компоненту. Следовательно, чтобы сделать адекватный прогноз по курсу доллара, необходимо учесть как тренд, так и случайную компоненту, поскольку оба эти фактора существенно влияют на динамику валюты.
Схематично наша дальнейшая работа, которой посвящены последующие главы этой книги, будет заключаться в следующем. Во-первых, нужно составить уравнение регрессии, с помощью которого можно будет делать прогнозы с необходимой точностью. Во-вторых, необходимо протестировать полученное уравнение регрессии (прогностическую модель) на его адекватность с точки зрения прогностических качеств. В-третьих, надо составить точечные прогнозы по курсу американской валюты, используя полученную математическую модель. В-четвертых, нужно удостовериться в приемлемой точности составленных точечных прогнозов. В-пятых, необходимо убедиться, что получившиеся в результате отклонения фактического курса доллара от его предсказанных (расчетных) значений представляют собой стационарный ряд. В-шестых, надо посмотреть, является ли распределение остатков нормальным, что позволит впоследствии составить интервальные прогнозы — с учетом диапазона отклонений точечных прогнозов от фактического курса доллара — с определенным уровнем надежности. В-седьмых, нужно проверить, соответствует ли точность интервальных прогнозов заданному уровню надежности. В-восьмых, научиться применять полученную статистическую модель для составления рекомендуемых цен покупки и продажи валюты, используемых в качестве стоп-приказов при работе на валютном рынке. Выполнение всех этих процедур будет сопровождаться подробным рассказом о том, как их можно выполнить в Excel или EViews, что поможет читателям впоследствии самостоятельно решать эти задачи.
Контрольные вопросы и задания1. Чем отличаются строго стационарные процессы от стационарных процессов в широком смысле?
2. Может ли стационарный процесс иметь тренд или какие-либо строго периодические колебания?
3. Чем нестационарный процесс отличается от стационарного? Может ли у нестационарного процесса быть тренд?
4. Если мы пришли к выводу о нестационарности временного ряда, что можно сказать об устойчивости его средней, дисперсии и автоковариации? Дайте определение средней, дисперсии и автоковариации.
Глава 2 Метод наименьших квадратов и решение уравнения регрессии в Excel
2.1. Характеристика метода наименьших квадратов и его применение при прогнозировании курса доллара
Как выяснено в главе 1, динамика курса валют представляет собой временной ряд, имеющий не только тренд, но и случайную компоненту, поэтому в качестве метода оценки параметров прогностической модели, как правило, используется регрессионный анализ. Как известно, задачей регрессионного анализа является определение аналитического выражения (математической формулы), аппроксимирующего связь между зависимой переменной Y (ее называют также результативным признаком) и независимыми (их называют также факторными) переменными Х1, Х2,…, Хn. При этом форма связи результативного признака Y с факторами Х1, Х2,…, Хn, либо с одним фактором X получила название уравнения регрессии. В качестве метода аппроксимации (приближения) в уравнении регрессии используется метод наименьших квадратов (МНК), который минимизирует сумму квадратов отклонений фактических значений Y от его предсказываемых значений, рассчитанных по определенной математической формуле. Причем решение уравнения регрессии относительно интересующих нас переменных у (курс доллара) и х (время или порядковый номер месяца), по сути, заключается в подборе прямой линии к совокупности пар данных, характеризующих динамику курса доллара и соответствующие порядковые номера месяцев. При этом линию, которая лучше всего подойдет к этим данным, выбирают так, чтобы сумма квадратов значений вертикальных отклонений зависимой переменной (фактического курса доллара) от линии, рассчитанной по уравнению регрессии (предсказанный курс доллара), была минимальной.
Математические подробности оценки параметров уравнения регрессии методом наименьших квадратовВ самом общем виде формулу МНК можно представить следующим образом:
Для отыскания параметров а и b, при которых функция j(a, b) принимает минимальное значение, необходимо найти частные производные по каждому из параметров этой функции а и b и приравнять их к нулю. Если Σe2 обозначить через S, то в результате мы получим систему нормальных уравнений МНК для прямой:
Преобразовав систему уравнений (2.1.2), получим:
Решив систему уравнений (2.1.3) методом последовательного исключения переменных, найдем следующие оценки параметров:
С помощью оцененного таким образом уравнения регрессии можно предсказать, как в среднем изменится признак Y в результате роста факторов Х1, Х2,…..Xt, (или одного фактора X).
В зависимости от того, какая математическая функция используется для прогнозирования результирующей переменной У, различают линейную и нелинейную регрессию. При этом в основе линейной регрессии лежит уравнение линейного тренда, а в основе нелинейной регрессии — целое семейство уравнений нелинейных трендов (полиномиальный второй, третьей и прочих степеней, степенной, экспоненциальный и др.). В случае если результативный признак Y зависит от одного фактора Z, то такое уравнение регрессии называется парным, а если Y зависит от нескольких факторов Х1, Х2,…. Xt, — то уравнением множественной регрессии.
Практически в любом учебнике по общей теории статистики и по эконометрике можно более подробно познакомиться со спецификой уравнений регрессии[2]. Существуют формулы, по которым можно самостоятельно найти параметры как уравнения линейной регрессии, так и различных видов уравнений нелинейной регрессии. Однако с внедрением в широкую практику компьютеров и соответствующих компьютерных программ уже нет необходимости оценивать параметры уравнения регрессии вручную, тем более что это процесс довольно трудоемкий.
Практически в любом учебнике по общей теории статистики и по эконометрике можно более подробно познакомиться со спецификой уравнений регрессии[2]. Существуют формулы, по которым можно самостоятельно найти параметры как уравнения линейной регрессии, так и различных видов уравнений нелинейной регрессии. Однако с внедрением в широкую практику компьютеров и соответствующих компьютерных программ уже нет необходимости оценивать параметры уравнения регрессии вручную, тем более что это процесс довольно трудоемкий.
2.2. Решение уравнения регрессии в Excel с учетом фактора времени. Интерпретация и оценка значимости полученных параметров
Рассмотрим алгоритм решения уравнения регрессии с применением соответствующих вычислительных программ. При этом работу с уравнением регрессии в компьютерных программах можно разделить на три этапа.
На первом, подготовительном этапе необходимо определиться с набором факторов, которые необходимо включить в уравнение регрессии, а также с его аналитической формой, что в ряде случаев требует предварительной обработки данных. Например, в случае выбора степенного уравнения регрессии вместо исходных данных нужно взять их логарифмы.
Второй этап состоит из собственно решения уравнения регрессии и нахождения его параметров.
На третьем этапе проводится оценка и тестирование общего качества уравнения регрессии, проверка статистической значимости каждого из коэффициентов регрессии, определяются их доверительные интервалы, а также принимается окончательное решение об адекватности или неадекватности полученного уравнения регрессии.
Как известно, одним из наиболее распространенных способов определения тренда в динамике курса валюты является построение его зависимости от фактора времени Т. Так, если в качестве зависимой переменной Умы возьмем ежемесячный курс доллара, а в качестве независимой переменной Т — время (в данном случае порядковые номера месяцев начиная с июня 1992 г.), то у нас получится следующее уравнение парной линейной регрессии:
где а — свободный член уравнения регрессии;
b — линейный коэффициент регрессии, показывающий, как изменение величины независимой переменной (фактора) Т в среднем способствует изменению зависимой переменной (результативного признака) Y,
Трасч — расчетное значение результативного признака, вычисляемое по формуле 2.2.
Минимизируем сумму квадратов отклонений (остатков) Yфакт от Ypасч, т. е. фактических значений курса доллара от его расчетных значений. В результате формулу МНК (2.1.1) для линейной регрессии можно представить в следующем виде:
Уравнение 2.3, в принципе, можно решить самостоятельно, если найти его параметры согласно формулам (2.1.4) и (2.1.5), но в целях ускорения этого процесса будем его решать с помощью Пакета анализа Excel. Кстати, желающие лучше усвоить суть МНК могут сначала самостоятельно в «ручном режиме» решить уравнение регрессии, а затем сверить свои результаты с теми, что мы получим в Excel.
Чтобы подготовить исходные данные к решению уравнения регрессии, разместим в Excel два столбца исходных данных. В первом столбце, который озаглавим Time, поместим порядковые номера месяцев, начиная с июня 1992 г. (с номером 1) и кончая апрелем 2010 г. (с номером 215). Во втором столбце, который озаглавим USDollar, поместим данные по курсу доллара на конец месяца, начиная с июня 1992 г. и заканчивая апрелем 2010 г.[3] Таким образом, столбец Time представляет собой независимую переменную, которая в формуле (2.2) обозначена символом Т, а столбец USDollar является зависимой переменной Yфакt. Далее переходим к решению уравнения регрессии в Пакете анализа Excel согласно алгоритму действий № 3.
Алгоритм действий № 3 Как решить уравнение регрессии в Excel Шаг 1. Ввод в уравнение исходных данныхСначала в Microsoft Excel 2007 в верхней панели инструментов выбирается опция ДАННЫЕ (в Microsoft Excel 1997–2003 нужно выбрать опцию СЕРВИС), потом в появившемся окне АНАЛИЗ ДАННЫХ — опция РЕГРЕССИЯ. После чего появляется новое окно РЕГРЕССИЯ (рис. 2.1), в котором в графе ВХОДНОЙ ИНТЕРВАЛ У выделяем (с помощью мышки) столбец данных USDollar (ячейки $С$1:$С$216). Здесь же в графе ВХОДНОЙ ИНТЕРВАЛ Xвыделяем столбец данных Time (ячейки $В$1:$В$216), т. е. независимую переменную Т из нашего уравнения регрессии (2.2).
Шаг 2. Дополнительные опцииЕсли бы мы хотели получить уравнение регрессии без свободного члена, который в формуле (2.2) обозначен символом а, то тогда нам следовало бы выбрать еще и опцию КОНСТАНТА-НОЛЬ. Но пока в использовании этой опции нет необходимости.
Опцию ОСТАТКИ следует выбирать тогда, когда есть необходимость, чтобы в выходных данных содержалась информация об отклонении расчетных У от их фактических значений. При этом остатки находятся по формуле
Опцию МЕТКИ применяют, чтобы переменные, включенные в уравнение регрессии, в ВЫВОДЕ ИТОГОВ были обозначены в виде заголовков соответствующих столбцов.
По умолчанию оценка в Excel параметров уравнения регрессии делается с 95 %-ным уровнем надежности. Однако в случае необходимости в опции УРОВЕНЬ НАДЕЖНОСТИ можно поставить цифру 99, что означает задание для программы оценить коэффициенты регрессии с 99 %-ным уровнем надежности. В результате в ВЫВОДЕ ИТОГОВ мы получим данные, характеризующие как в целом уравнение регрессии, так и верхние и нижние интервальные оценки коэффициентов уравнения с 95 %-ным и 99 %-ным уровнями надежности. При 95 %-ном уровне надежности существует риск, что в 5 % случаях оценки коэффициентов уравнения регрессии могут оказаться статистически незначимыми, а при 99 %-ном уровне надежности этот риск равен 1 %.
Шаг 3. Вывод итоговНа заключительном этапе выбираем в параметрах вывода (окно РЕГРЕССИЯ) опцию ВЫХОДНОЙ ИНТЕРВАЛ, в которой указываем соответствующую ячейку Excel ($Н$2), далее щелкаем по надписи ОК и получаем ВЫВОД ИТОГОВ (см. рис. 2.1, где можно увидеть все заданные нами параметры уравнения регрессии). В случае необходимости вывод итогов можно получить на отдельном листе (опция НОВЫЙ РАБОЧИЙ ЛИСТ) или в новой книге Excel (опция НОВАЯ РАБОЧАЯ КНИГА).
Результаты решения уравнения регрессии, которые в программе Excel выдаются в виде единой таблицы под заголовком ВЫВОД ИТОГОВ, у нас представлены в виде трех блоков (табл. 2.2–2.4). Так, в табл. 2.2 сгенерированы результаты по регрессионной статистике, в табл. 2.3 дается дисперсионный анализ, а в табл. 2.4 оценивается статистическая значимость коэффициентов регрессии.
Параметры, представленные в табл. 2.2, характеризуют уровень аппроксимации фактических данных, полученный с помощью уравнения регрессии. Так, параметр МНОЖЕСТВЕННЫЙ R обозначает коэффициент множественной корреляции R, который характеризует тесноту связи между результативным признаком Y и факторами переменных Д, Х2…., Хn. Этот коэффициент изменяется в пределах от 0 до 1, причем чем ближе к 1, тем теснее корреляционная связь между переменными, включенными в уравнение регрессии. Коэффициент множественной корреляции равен квадратному корню, извлеченному из коэффициента детерминации R2, который также приводится в регрессионной статистике. Коэффициент множественной корреляции R находят по формуле:
Зная величину коэффициента корреляции R, можно дать качественную оценку силы связи между зависимой и независимыми переменными, включенными в уравнение (2.5). С целью классификации силы связи обычно используют шкалу Чеддока (табл. 2.1).
Если между переменными существует функциональная связь, то R= 1, а если корреляционная связь отсутствует, то R = 0. Поскольку в табл. 2.2 коэффициент множественной корреляции Нравен 0,8456, то, согласно шкале Чеддока, связь между переменными, включенными в уравнение регрессии, можно считать высокой. Следует также заметить, что если коэффициент множественной корреляции меньше 0,7, то это означает, что величина коэффициента детерминации R2 будет меньше 50 %, а потому регрессионные модели с таким коэффициентом детерминации не имеют большого практического значения.
Однако самым важным является другой параметр регрессионной статистики — R-КВАДРАТ (в табл. 2.2 он выделен шрифтом), обозначающий коэффициент детерминации R2. Коэффициент детерминации R2 характеризует долю дисперсии результативного признака У, объясняемую уравнением регрессии, в общей дисперсии результативного признака. Коэффициент детерминации R2 находится по следующей формуле: