Коэффициент детерминации R2, как и коэффициент множественной корреляции R, изменяется в пределах от нуля до единицы. Если R2 равен единице, то доля объясненной дисперсии составляет 100 %, а следовательно, связь между зависимой переменной Y и независимыми переменными Х1, Х2…., X1 носит функциональный характер. В том случае, когда R2 равен нулю, какая-либо связь между переменными в этом уравнении регрессии отсутствует.
Величина коэффициента детерминации R2 является одним из важнейших критериев при оценке качества уравнения регрессии. Так, при выборе из нескольких уравнений регрессии предпочтение (при прочих равных условиях) отдается тому, у которого коэффициент детерминации R2 ближе к единице. И это вполне понятно: чем выше коэффициент детерминации уравнения регрессии, тем выше у него уровень аппроксимации и соответственно ниже доля необъясненной дисперсии. В нашем случае коэффициент детерминации R2 = 0,7151, а потому можно сделать вывод, что в период с июня 1992 г. по апрель 2010 г. 71,51 % ежемесячных колебаний курса доллара (зависимая переменная Y), согласно уравнению регрессии, объяснялись изменением порядкового номера месяца (независимая переменная 7).
Другой параметр регрессионной статистики — НОРМИРОВАННЫЙ R-КВАДРАТ. Дело в том, что при добавлении в уравнение регрессии дополнительных факторов (независимых переменных) величина коэффициента детерминации R2 соответственно растет. Поэтому чтобы сделать сравнения коэффициентов детерминации между уравнениями регрессии с разным числом факторов более сопоставимыми, используется нормированный R2, величина которого корректируется в сторону уменьшения при добавлении в уравнение дополнительных факторов. В Пакете анализа Excel нормированный R2 вычисляют по формуле:
В нашем случае
Еще один параметр регрессионной статистики — СТАНДАРТНАЯ ОШИБКА, или остаточное стандартное отклонение, которое можно найти по следующей формуле:
НАБЛЮДЕНИЯ — этот параметр регрессионной статистики показывает число наблюдений п, равное 215 (т. е. числу месяцев с июня 1992 г. по апрель 2010 г., по которым у нас есть данные).
В таблице 2.3 дается дисперсионный анализ, т. е. анализ изменения результативного признака под воздействием включенных в уравнение регрессии факторов.
При этом столбцы этой таблицы имеют следующую интерпретацию.
1. Столбец df (degrees of freedom) сообщает число степеней свободы. Причем для строки РЕГРЕССИЯ число степеней свободы равно
количеству факторов kфакт, включенных в уравнение регрессии. В нашем случае dfрегр = k = 1.
Для строки ОСТАТОК число степеней свободы определяется числом наблюдений и количеством факторов, включенных в уравнении регрессии. При этом dfост находится по следующей формуле:
где п — число наблюдений; к — количество факторов.
В нашем случае dfост = 215 — (1 + 1) = 213.
Для строки ИТОГО число степеней свободы находится по следующей формуле:
В нашем случае dfитого = 1 + 213 = 214.
2. Столбец SS означает сумму квадратов отклонений.
Для строки РЕГРЕССИЯ этот столбец обозначает сумму квадратов отклонений рассчитанных (предсказанных) значений результативного признака от его среднего, рассчитанного по фактическим данным:
Для строки ОСТАТОК столбец SS обозначает сумму квадратов отклонений фактических данных от их расчетных значений:
Для строки ИТОГО столбец SS обозначает сумму квадратов отклонений фактических данных от их среднего:
SS2итого можно также найти, сложив SS2регр с SS2ост: 21 779,45 + 8676,619 = 30 456,07.
3. Столбец MS означает дисперсию на одну степень свободы, которая находится по следующей формуле:
Для строки РЕГРЕССИЯ — это факторная, или объясненная, дисперсия:
Dфакт = МSфакт = 21 779,45/1 = 21 779,45.
Для строки ОСТАТОК — это остаточная дисперсия:
Dост = MSост= 8676,619/213 = 40,7353.
4. В столбце F дается фактический F-критерий Фишера, который находится путем сопоставления факторной и остаточной дисперсии на одну степень свободы. При этом F-критерий Фишера рассчитывается по следующей формуле:
Если нулевая гипотеза (об отсутствии связи между переменными, включенными в уравнение регрессии) справедлива, то факторная и остаточная дисперсия не отличаются друг от друга. Чтобы уравнение регрессии было признано значимым, требуется опровержение нулевой гипотезы, а для этого необходимо, чтобы факторная дисперсия превышала остаточную дисперсию в несколько раз. Статистиками разработаны соответствующие таблицы критических значений F-критерия при разных уровнях значимости нулевой гипотезы и различном числе степеней свободы. При этом следует иметь в виду, что табличное значение F-критерия — это максимальная величина отношения факторной дисперсии к остаточной дисперсии, которая может иметь место при случайном их расхождении для данного уровня вероятности наличия нулевой гипотезы. Если фактический (т. е. рассчитанный для этого уравнения регрессии) F-критерий больше его табличного значения, то нулевая гипотеза об отсутствии связи между результативным признаком и факторами отклоняется и делается вывод о существенности этой связи.
5. В столбце ЗНАЧИМОСТЬ F дается уровень значимости, который соответствует величине фактического F-критерия Фишера, вычисленного для этого уравнения регрессии. В нашем случае значимость Fфакт практически равна нулю, т. е. Fфакт больше Fтабл (значения F-критерия Фишера при уровне значимости 0,05 или 5 % можно найти в любом учебнике по статистике) при 1 %-ном и 5 %-ном уровне значимости. Отсюда можно сделать вывод о статистической значимости уравнения регрессии, поскольку связь между включенными в него факторами в этом случае доказана.
В тех случаях, когда значимость F бывает больше, например, 0,01, но меньше 0,05, то тогда делается вывод, что Fфакт меньшеFтабл при 1 %-ном уровне значимости, но больше Fтабл при 5 %-ном уровне значимости. Следовательно, в этой ситуации нулевая гипотеза об отсутствии связи между результативным признаком и факторами, включенными в уравнение регрессии, на 1 %-ном уровне значимости не отклоняется, но отклоняется на 5 %-ном уровне значимости. Таким образом, в этом случае каждый исследователь должен сам решить, считать ли 5 %-ный уровень значимости F-критерия достаточным для того, чтобы сделать вывод о статистической значимости уравнения регрессии. При этом следует иметь в виду, что если значимость F-критерия выше 0,05, т. е. Fфакт меньше Fтабл при 5 %-ном уровне значимости, то в этой ситуации уравнение регрессии, как правило, считается статистически незначимым.
В таблице 2.4 сгенерированы коэффициенты уравнения регрессии и оценки их статистической значимости.
1. В столбце КОЭФФИЦИЕНТЫ представлены коэффициенты уравнения регрессии. На пересечении этого столбца со строкой Y-ПЕРЕСЕЧЕНИЕ дан свободный член, который в формуле линейного уравнения регрессии (2.2) обозначен символом а = 1,995805.
Во второй строке этого столбца, обозначенной как Time (независимая переменная — порядковый номер месяца), сгенерирован коэффициент уравнения регрессии, который в формуле (2.2) представлен символом b = 0,162166.
Таким образом, данные, представленные в столбце Коэффициенты, дают нам возможность составить путем подстановки соответствующих цифр в формулу (2.2) следующее уравнение линейной парной регрессии:
Y = 0,1622Х + 1,9958,
где независимая переменная X означает порядковый номер месяца (июнь 1992 г. — 1, а апрель 2010 г. — 215);
зависимая переменная Y — ежемесячное значение курса доллара.
При этом экономическая интерпретация этого линейного уравнения следующая: в период с июня 1992 г. по апрель 2010 г. курс доллара к рублю ежемесячно рос со средней скоростью 16,22 коп. при исходном уровне временного ряда в размере 1 руб. 99,58 коп. В свою очередь геометрическая интерпретация этого линейного уравнения следующая: свободный член уравнения 1,9958 показывает точку пересечения линии тренда с осью Y, а коэффициент уравнения 0,1622х равен углу наклона линии тренда к оси Х(см. рис. 2.5).
зависимая переменная Y — ежемесячное значение курса доллара.
При этом экономическая интерпретация этого линейного уравнения следующая: в период с июня 1992 г. по апрель 2010 г. курс доллара к рублю ежемесячно рос со средней скоростью 16,22 коп. при исходном уровне временного ряда в размере 1 руб. 99,58 коп. В свою очередь геометрическая интерпретация этого линейного уравнения следующая: свободный член уравнения 1,9958 показывает точку пересечения линии тренда с осью Y, а коэффициент уравнения 0,1622х равен углу наклона линии тренда к оси Х(см. рис. 2.5).
2. В столбце СТАНДАРТНАЯ ОШИБКА сгенерированы стандартные ошибки свободного члена и коэффициента регрессии, значения которых даны во втором столбце табл. 2.4. При этом стандартная ошибка свободного члена уравнения регрессии находится по следующей формуле:
где MSост = Dост — остаточная дисперсия, приходящаяся на одну степень свободы.
Для нашего случая стандартная ошибка свободного члена уравнения регрессии равна
В свою очередь стандартная ошибка коэффициента регрессии оценивается по следующей формуле:
Для нашего случая стандартная ошибка коэффициента регрессии имеет следующее значение:
3. В столбце t-СТАТИСТИКА даны расчетные значения /-критерия. При этом для свободного члена /-статистика вычисляется по формуле
где а — свободный член уравнения.
В нашем случае t-статистика находится следующим образом:
Для коэффициента регрессии t-статистика рассчитывается по формуле
где b — коэффициент регрессии.
Тогда Z-статистика находится следующим образом:
4. В столбце Р-ЗНАЧЕНИЕ сгенерированы уровни значимости, соответствующие значениям t-статистики.
В Excel Р-значение находится с помощью следующей функции:
СТЬЮДРАСП (X = tст; df= п- к — 1; хвосты = 2),
где в опции X дается t-статистика, для которой нужно вычислить двустороннее распределение;
в опции df — число степеней свободы; в опции хвосты — цифра 2 для двустороннего распределения.
Для свободного члена уравнения эта функция приобретает следующий вид:
СТЬЮДРАСП (2,284573; 215-1-1= 213; 2) = 0,023323.
Следовательно, Р-значение свободного члена уравнения показывает, что этот коэффициент значим лишь при 5 %-ном уровне значимости, но не при 1 %-ном уровне значимости.
Для коэффициента регрессии P-значение в Excel находится следующим образом[4]:
СТЬЮДРАСП (23,12267; 215 — 1–1= 213; 2) = 5,4Е — 60 = 0,0.
Следовательно, P-значение коэффициента регрессии показывает, что этот коэффициент значим не только при 5 %-ном уровне значимости, но и при 1 %-ном уровне значимости.
5. Столбцы НИЖНИЕ 95 % и ВЕРХНИЕ 95 % показывают соответственно нижние и верхние интервалы значений коэффициентов при 95 %-ном уровне значимости. Для расчета доверительных интервалов сначала устанавливается критическое значение /-критерия, которое в Excel находится с помощью функции
СТЬЮДРАСПОБР (α = 0,05; df = n — k — 1);
где в опции α — величина риска, при котором коэффициент регрессии (или свободный член) может оказаться за рамками установленных доверительных интервалов;
в опции df — число степеней свободы.
Таким образом, для 95 %-ного уровня надежности t-критерий = СТЬЮДРАСПОБР (α = 0,05; df= 215 — 1–1) = 1,9712.
Далее для свободного члена уравнения находим:
1. Значение столбца НИЖНИЕ 95 % = КОЭФФИЦИЕНТ — СТАНДАРТНАЯ ОШИБКА × t-критерий = 1,995805 — (0,873601 × 1,9712) = 0,273794.
2. Значение столбца ВЕРХНИЕ 95 % = КОЭФФИЦИЕНТ + СТАНДАРТНАЯ ОШИБКА × t-критерий = 1,995805 + (0,873601 × 1,9712) = = 3,717815.
Для коэффициента регрессии TIME находим:
1. Значение столбца НИЖНИЕ 95 % = КОЭФФИЦИЕНТ — СТАНДАРТНАЯ ОШИБКА × t-критерий = 0,162166 — (0,007013 × 1,9712) = 0,148342.
2. Значение столбца ВЕРХНИЕ 95 % = КОЭФФИЦИЕНТ + СТАНДАРТНАЯ ОШИБКА × t-критерий = 0,162166 + (0,007013 × 1,9712) = 0,175991.
6. Столбцы НИЖНИЕ 99 % и ВЕРХНИЕ 99 % показывают соответственно нижние и верхние интервалы значений коэффициентов при 99 %-ном уровне значимости. При этом значения столбца НИЖНИЕ 99 % и ВЕРХНИЕ 99 % находятся аналогичным образом, как и значения столбцов НИЖНИЕ 95 % и ВЕРХНИЕ 95 %.
Единственное отличие — это расчет t-критерия для 99 %-ного уровня надежности. При этом t-критерий = СТЬЮДРАСПОБР (α = 0,01; df= 215 — 1–1) = 3,3368. Найденный t-критерий используют при нахождении 99 % доверительных интервалов для свободного члена и коэффициента регрессии. Правда, со свободным членом уравнения у нас возникает довольно серьезная проблема. Дело в том, что при 99 %-ном уровне надежности у свободного члена уравнения при переходе от столбца НИЖНИЕ 99 % к столбцу ВЕРХНИЕ 99 % происходит смена знака от минуса к плюсу. Вполне очевидно, что в практических расчетах столь неоднозначно изменяющийся свободный член уравнения (он может быть как положительным, так и отрицательным, а также равным нулю) невозможно использовать. Поэтому для 99 %-ного уровня надежности свободный член уравнения считается статистически незначимым, в то время как для 95 %-ного уровня надежности его можно считать статистически значимым, поскольку в последнем случае при переходе от столбца НИЖНИЕ 95 % к столбцу ВЕРХНИЕ 95 % не происходит смена знака от минуса к плюсу.
Суммируя сказанное, приведем краткий алгоритм принятия решения о статистической значимости уравнения регрессии на основе ВЫВОДА ИТОГОВ в Excel.
Алгоритм действий № 4 Оценка статистической значимости уравнения регрессии и его коэффициентов Шаг 1. Принятие решения о значимости уравнения регрессии1.1. Чем ближе R-квадрат к единице, тем лучше. Это дает важный критерий для выбора одного из нескольких уравнений регрессии.
1.2. Значимость F при 95 %-ном уровне надежности должна быть меньше 0,05; при 99 %-ном должна быть меньше 0,01.
Шаг 2. Принятие решения о значимости коэффициентов уравнения регрессии2.1. P-значение должно быть меньше 0,05 при 95 %-ном уровне надежности; при 99 %-ном P-значение должно быть меньше 0,01.
2.2. Коэффициенты регрессии и свободный член уравнения при переходе от столбцов НИЖНИЕ и ВЕРХНИЕ (при заданном уровне надежности) не должны менять свой знак. Если смена знака происходит, то коэффициенты регрессии и свободный член уравнения признаются статистически незначимыми.
Исходя из этого краткого алгоритма мы отметили жирным шрифтом в ВЫВОДЕ ИТОГОВ (табл. 2.5) именно те пункты, на которые следует обратить внимание. При этом те пункты, которые не являются статистически значимыми при определенном уровне надежности, мы не только выделили жирным шрифтом, но еще и подчеркнули.
Таким образом, взяв за основу данные из табл. 2.5 и действуя по алгоритму № 4, мы дадим ответы на все его четыре пункта.
1.1. Поскольку коэффициент детерминации R2 для этого уравнения регрессии оказался равен 0,71511, то отсюда можно сделать вывод, что это уравнение в 71,51 % случаях в состоянии объяснить ежемесячные колебания курса доллара.
1.2. Значимость F равна 5,4Е -60 или нулю, а следовательно, уравнение регрессии статистически значимо как при 95 %-ном уровне надежности, так и при 99 %-ном уровне надежности.
2.1. Р-значение для свободного члена уравнения равно 0,023323, а следовательно, этот коэффициент статистически значим лишь при 95 %-ном уровне надежности, но незначим при 99 %-ном уровне надежности, поскольку он больше 0,01. Р-значение для коэффициента регрессии равно нулю, а следовательно, этот коэффициент статистически значим как при 95 %-ном уровне надежности, так и при 99 %-ном уровне надежности.
2.2. Свободный член (константа) уравнения при переходе от столбца НИЖНИЕ 99,0 % к столбцу ВЕРХНИЕ 99,0 % меняет знак с минуса на плюс, а потому статистически незначим при 99 %-ном уровне надежности. При 95 %-ном уровне надежности смены знаков не происходит, а потому свободный член уравнения при этом уровне надежности статистически значим. Коэффициент регрессии статистически значим как при 95 %, так и при 99 %-ном уровне надежности, поскольку и в том, и в другом случае смены знака у этого коэффициента не происходит. Следовательно, на основании табл. 2.5 можно сделать вывод, что в целом уравнение регрессии и все его коэффициенты статистически значимы при 95 %-ном уровне надежности.
Как мы уже говорили ранее, уравнение регрессии в отличие от обычных уравнений, оценивающих функциональную, т. е. жестко детерминированную связь между переменными, дает прогноз зависимой переменной с учетом воздействия случайного фактора, поэтому фактические значения результативного признака практически всегда отличаются от его расчетных (теоретических) значений. При этом случайная компонента (остаток) находится следующим образом.