Среднее абсолютное отклонение (mean absolute deviation), или просто среднее отклонение, является средним арифметическим абсолютных значений разности значения каждой точки и среднего арифметического значений всех точек. Другими словами (что и следует из названия), это среднее расстояние, на которое значение точки данных удалено от среднего. В математических терминах:
где М = среднее абсолютное отклонение;
N = общее число точек данных;
X. = значение, соответствующее точке i;
А = среднее арифметическое значений точек данных;
ABS() = функция абсолютного значения.
Уравнение (3.06) дает нам совокупное среднее абсолютное отклонение. Вам следует знать, что можно рассчитать среднее абсолютное отклонение по выборке. Для расчета среднего абсолютного отклонения выборки замените 1 / N в уравнении (3.06) на 1 / (N - 1). Используйте эту версию, когда расчеты ведутся не по всей совокупности данных, а по некоторой выборке.
Самыми распространенными величинами для измерения разброса являются дисперсия и стандартное отклонение. Как и в случае со средним абсолютным отклонением, их можно рассчитать для всей совокупности и для выборки. Далее показана версия для всей совокупности данных, которую можно легко переделать в выборочную версию, заменив l/NHal/(N-l). Дисперсия (variance) чем-то напоминает среднее абсолютное отклонение, но при расчете дисперсии каждая разность значения точки данных и среднего значения возводится в квадрат. В результате, нам не надо брать абсолютное значение каждой разности, так как мы автоматически получаем положительный результат, независимо от того, была эта разность отрицательной или положительной. Кроме того, так как в квадрат возводится каждая из этих величин, крайние выпадающие значения оказывают большее влияние на дисперсию, а не на среднее абсолютное отклонение. В математических терминах:
где V = дисперсия;
N = общее число точек данных;
X. = значение, соответствующее точке i;
А = среднее арифметическое значений точек данных.
Стандартное отклонение (standard deviation) тесно связано с дисперсией (и, следовательно, со средним абсолютным отклонением). Стандартное отклонение является квадратным корнем дисперсии.
Третий момент распределения называется асимметрией (skewness), и он описывает асимметричность распределения относительно среднего значения (рисунок 3-2). В то время как первые два момента распределения имеют размерные величины (то есть те же единицы измерения, что и измеряемые параметры), асимметрия определяется таким способом, что получается безразмерной. Это просто число, которое описывает форму распределения.
Положительное значение асимметрии означает, что хвосты больше с положительной стороны распределения, и наоборот. Совершенно симметричное распределение имеет нулевую асимметрию.
Рисунок 3-2 Асимметрия
Рисунок 3-3 Асимметричное распределение
В симметричном распределении среднее, медиана и мода имеют одинаковое значение. Однако когда распределение имеет ненулевое значение асимметрии, оно может принять вид, показанный на рисунке 3-3. Для асимметричного распределения (любого распределения с ненулевой асимметрией) верно равенство:
(3.08) Среднее - Мода = 3 * (Среднее - Медиана)
Есть много способов для расчета асимметрии, и они часто дают различные ответы. Ниже мы рассмотрим несколько вариантов:
(3.09) S == (Среднее - Мода) / Стандартное отклонение
(3.10) S = (3 * (Среднее - Медиана)) / Стандартное отклонение
Уравнения (3.09) и (3.10) дают нам первый и второй коэффициенты асимметрии Пирсона. Асимметрия также часто определяется следующим образом:
где S = асимметрия;
N = общее число точек данных;
Х = значение, соответствующее точке i;
А = среднее арифметическое значений точек данных;
D = стандартное отклонение значений точек данных.
И наконец, четвертый момент распределения, эксцесс (kurtosis) (см. рисунок 3-4), измеряет, насколько у распределения плоская или острая форма (по сравнению с нормальным распределением). Как и асимметрия, это безразмерная величина. Кривая, менее остроконечная, чем нормальная, имеет эксцесс отрицательный, а кривая, более остроконечная, чем нормальная, имеет эксцесс положительный. Когда пик кривой такой же, как и у кривой нормального распределения, эксцесс равен нулю, и мы будем говорить, что это распределение с нормальным эксцессом.
Как и предыдущие моменты, эксцесс имеет несколько способов расчета. Наиболее распространенными являются:
где К = эксцесс;
Q == семи-интерквартильная широта;
Р = широта перцентиля 10-90.
(3.13) К = (1 / N (∑ (((X - Аi) / D)^ 4))) - 3,
где К = эксцесс;
N = общее число точек данных;
Х = значение, соответствующее точке i;
А = среднее арифметическое значений точек данных;
D = стандартное отклонение значений точек данных.
Рисунок 3-4 Эксцесс
Наконец, необходимо отметить, что «теория», связанная с моментами распределения, намного серьезнее, чем то, что представлено здесь. Для более глубокого понимания вам следует просмотреть книги по статистике, упомянутые в списке рекомендованной литературы. Для наших задач изложенного выше вполне достаточно.
До настоящего момента рассматривалось распределение данных в общем виде. Теперь мы изучим нормальное распределение.
Нормальное распределение
Часто нормальное распределение называют распределением Гаусса, или Муавра, в честь тех, кто, как считается, открыл его — Карл Фридрих Гаусс (1777-1855) и, веком ранее, что не так достоверно, Авраам де Муавр (1667-1754). Нормальное распределение считается наиболее ценным распределением, благодаря тому, что точно моделирует многие явления. Давайте рассмотрим приспособление, более известное как доска Галтона (рисунок 3-5). Это вертикально установленная доска в форме равнобедренного треугольника. В доске расположены колышки, один в верхнем ряду, два во втором, и так далее. Каждый последующий ряд имеет на один колышек больше. Колышки в сечении треугольные, так что, когда падает шарик, у него есть вероятность 50/50 пойти вправо или влево. В основании доски находится серия желобов для подсчета попаданий каждого броска.
Рисунок 3-5 Доска Галтона
Шарики, падающие через доску Галтона и достигающие желобов, начинают формировать нормальное распределение. Чем «глубже» доска (то есть чем больше рядов она имеет) и чем больше шариков бросается, тем ближе конечный результат будет напоминать нормальное распределение.
Нормальное распределение интересно еще и потому, что оно является предельной формой многих других типов распределений. Например, если Х распределено биномиально, а N стремится к бесконечности, то Х стремится к нормальному распределению. Более того, нормальное распределение также является предельной формой многих других ценных распределений вероятности, таких как Пуассона, Стьюдента (или t-распределения). Другими словами, когда количество данных (N), используемое в этих распределениях, увеличивается, они все более напоминают нормальное распределение.
Центральная предельная теорема
Одно из наиболее важных применений нормального распределения относится к распределению средних значений. Средние значения выборок заданного размера, взятые таким образом, что каждый элемент выборки отобран независимо от других, дадут распределение, которое близко к нормальному Это чрезвычайно важный факт, так как он означает, что вы можете получить параметры действительно случайного процесса из средних значений, рассчитанных на основе выборочных данных.
Рисунок 3-6 Экспоненциальное распределение и нормальное распределение
Таким образом, мы можем сформулировать, что если N случайных выборок извлекаются из совокупности всех данных, тогда суммы (или средние значения) выборок будут приблизительно нормально распределяться независимо от распределения совокупности, из которой взяты эти выборки. Близость к нормальному распределению увеличивается, когда N (число выборок) возрастает. В качестве примера рассмотрим распределение чисел от 1 до 100. Это равномерное распределение, где все элементы (в данном случае числа) встречаются только раз. Например, число 82 встречается один раз, так же как и 19, и так далее. Возьмем выборку из пяти элементов и среднее значение этих пяти элементов (мы можем также взять их сумму). Теперь поместим полученные пять элементов обратно, возьмем другую выборку и рассчитаем среднее. Если мы будем продолжать этот процесс дальше, то увидим, что полученные средние нормально распределяются, даже если совокупность, из которой они взяты, распределена равномерно.
Все вышесказанное верно независимо от того, как распределена совокупность данных! Центральная предельная теорема позволяет нам обращаться с распределением средних значений выборок, как с нормальным, без необходимости знать распределение совокупности. Это чрезвычайно удобный факт для многих областей исследований. Если совокупность нормально распределена, то распределение средних значений выборок будет точно (а не приблизительно) нормальным. Кроме того, скорость, с которой распределение средних значений выборок приближается к нормальному при повышении N, зависит от того, насколько близко совокупность находится к нормальному распределению. Общее практическое правило следующее: если совокупность имеет унимодальное (одновершинное) распределение (любой тип распределения, где есть концентрация частоты вокруг одной моды и уменьшение частот с любой стороны моды, например, выпуклость) или равномерно распределяется, то можно использовать N = 20 (это считается достаточным) и N = 10 (это считается достаточным с большой вероятностью). Однако если совокупность распределена экспоненциально (рисунок 3-6), тогда может потребоваться и N = 100.
Центральная предельная теорема, этот поразительно простой и красивый факт, подтверждает важность нормального распределения.
Работа с нормальным распределением
При использовании нормального распределения часто требуется найти долю площади под кривой распределения в данной точке на кривой. На математическом языке это называется интегралом функции, задающей кривую. Таким же образом функция, которая задает кривую, является производной площади под кривой. Если у нас есть функция N(X), которая представляет процент площади под кривой в точке X, мы можем говорить, что производная этой функции N'(X) является функцией самой кривой в точке X.
Мы начнем с формулы самой кривой N' (X). Данная функция выглядит следующим образом:
где U = среднее значение данных;
S =стандартное отклонение данных;
Х = наблюдаемая точка данных;
ЕХР () = экспоненциальная функция.
Эта формула даст нам значение для оси Y, или высоту кривой, при любом данном значении X.
Часто мы будем говорить о точке на кривой, ссылаясь на ее координату X, и будем смотреть, на сколько стандартных отклонений она удалена от среднего. Таким образом, точка данных, которая удалена на одно стандартное отклонение от среднего, считается смещенной на одну стандартную единицу (standard units) от среднего.
Рисунок 3- 7 Функция плотности нормального распределения вероятности
Более того, часто имеет смысл из всех точек данных вычесть среднее. При этом центр распределения сместится в начало координат. В этом случае точка данных, которая смещена на одно стандартное отклонение вправо от среднего, имеет значение 1 на оси X.
Если мы вычтем среднее из точек данных, а затем разделим полученные значения на стандартное отклонение точек данных, то преобразуем распределение в нормированное нормальное (standardized normal). Это нормальное распределение со средним, равным 0, и дисперсией, равной 1. Теперь N'(Z) даст нам значение на оси Y (высота кривой) для любого значения Z:
U = среднее значение данных;
S = стандартное отклонение данных;
Х = наблюдаемая точка данных;
ЕХР() = экспоненциальная функция.
Уравнение (3.16) дает нам число стандартных единиц, которым соответствует точка данных; другими словами, число стандартных отклонений, на которое точка данных смещена от среднего. Когда уравнение (3.16) равно 1, оно называется стандартным нормальным отклонением (standard normal deviate) от среднего значения. Стандартное отклонение, или стандартная единица, иногда называется сигмой (sigma). Таким образом, когда говорят о событии, которое было «событием пяти сигма», то речь идет о событии, вероятность которого находится за пределами пяти стандартных отклонений.
Рисунок 3-7 показывает нормальную кривую, заданную предедущим уравнением. Отметьте, что высота стандартной нормальной кривой составляет 0,39894, поскольку из уравнения (3.15а) мы получаем:
Отметьте, что кривая непрерывна (в ней нет «разрывов»), когда она переходит из отрицательной области слева в положительную область справа. Отметьте также, что кривая симметрична: сторона справа от пика является зеркальным отражением стороны слева. Предположим, у нас есть группа данных, где среднее равно 11, а стандартное отклонение равно 20. Чтобы увидеть, где точка данных будет отображена на кривой, рассчитаем ее в стандартных единицах. Предположим, что рассматриваемая точка данных имеет значение -9. Чтобы рассчитать число стандартных единиц, мы сначала должны вычесть среднее из этой точки данных: -9- 11 =-20
Затем надо разделить полученный результат на стандартное отклонение:
-20/20=-1
Теперь мы можем сказать, что, когда точка данных равна -9, среднее равно 11, а стандартное отклонение составляет 20, число стандартных единиц равно -1. Другими словами, мы находимся на одно стандартное отклонение от пика кривой, и, так как это значение отрицательно, оно находится слева от пика. Чтобы увидеть, где это будет на самой кривой (то есть насколько высока кривая при одном стандартном отклонении слева от центра, или чему равно значение кривой на оси Y для значения -1 на оси X), надо подставить полученное значение в уравнение (3.15а):
Таким образом, высота кривой при Х=-1 составляет 0,2419705705. Функция N'(Z) также часто выражается как:
и ATN() = функция арктангенса;
U = среднее значение данных;
S = стандартное отклонение данных;
Х = наблюдаемая точка данных;
ЕХР() = экспоненциальная функция.
Не искушенные в статистике люди часто находят концепцию стандартного отклонения (или квадрата ее величины, дисперсии) трудной для представления. Среднее абсолютное отклонение (mean absolute deviation), которое можно преобразовать в стандартное отклонение, гораздо проще для понимания. Среднее абсолютное отклонение полностью отвечает своему названию: среднее данных вычитается из каждой точки данных, затем абсолютные значения каждой из этих разностей суммируются, и данная сумма делится на число точек данных. В результате у вас получается среднее расстояние каждой точки данных до среднего значения. Преобразование среднего абсолютного отклонения в стандартное отклонение, и наоборот, представлены далее:
где М = среднее абсолютное отклонение;
S = стандартное отклонение.
Можно сказать, что при нормальном распределении среднее абсолютное отклонение равно стандартному отклонению, умноженному на 0,7979.
(3.18) S = М * 1 / 0,7978845609
=М* 1,253314137, где S = стандартное отклонение;
М = среднее абсолютное отклонение.
Мы можем также сказать, что при нормальном распределении стандартное отклонение равно среднему абсолютному отклонению, умноженному на 1,2533. Так как дисперсия всегда является стандартным отклонением в квадрате (а стандартное отклонение является квадратным корнем дисперсии), мы можем задать преобразование между дисперсией и средним абсолютным отклонением.
(3.19) М = V ^ (1/2) * ((2 / 3,1415926536)^ (1/2))
= V ^ (1/2)* 0,7978845609,
где М = среднее абсолютное отклонение;
V = дисперсия.
(3.20) V = (М * 1,253314137)^ 2,
где V =дисперсия;
М = среднее абсолютное отклонение.
Так как стандартное отклонение в стандартной нормальной кривой равно 1, мы можем сказать, что среднее абсолютное отклонение в стандартной нормальной кривой равно 0,7979. Более того, в колоколообразной кривой, подобной нормальной, семи-интер-квартильная широта равна приблизительно 2/3 стандартного отклонения, и поэтому стандартное отклонение примерно в 1,5 раза больше семи-интерквартильной широты. Это справедливо для большинства колоколообразных распределений, а не только для нормальных, как и в случае с преобразованием среднего абсолютного отклонения в стандартное отклонение.
Нормальные вероятности
Теперь мы знаем, как преобразовывать наши необработанные данные в стандартные единицы и как построить кривую N'(Z) (т.е. как найти высоту кривой, или координату Y, для данной стандартной единицы), а также N'(X) (из уравнения (3.14), т.е. саму кривую без первоначального преобразования в стандартные единицы). Для практического использования нормального распределения вероятности нам надо знать вероятность определенного результата. Это определяется не высотой кривой, а площадью под кривой. Эта площадь задается интегралом функции N'(Z), которую мы до настоящего момента изучали. Теперь мы займемся N(Z), интегралом N'(Z), чтобы найти площадь под кривой (т.е. вероятности)[12].