Вероятностная кривая и соответствующая ей гистограмма распределения
Вероятностный график позволяет визуально оценить однородность выборки, наличие выбросов (ураганных значений), близость исследуемого распределения нормальному (или в случае работы с логарифмами логнормальному). По сути, вероятностный график это квантиль-квантильная кривая, построенная по данным двух распределений: исследуемого и нормального. График обычно имеет вид некоторой ломаной кривой, либо серии точек.
По степени «прямоты» вероятностной кривой можно судить о близости рассматриваемого распределения нормальному закону, по наличии резких перегибов и относительно прямолинейных участков на графике об однородности или неоднородности, а по наличию «срывов» и горизонтальных «ступенек» о наличии выбросов.
В «докомпьютерную» эпоху для построения вероятностной кривой использовались специальные «вероятностные бланки». С появлением Excel потребность в подобных бланках отпала. Давайте рассмотрим алгоритм построения вероятностного графика на примере данного12 файла.
На листе «Выборки» с помощью генератора случайных чисел и формулы «НОРМ. ОБР» создаются две распределенные по нормальному закону выборки численностью по 10 000 значений каждая. На листе «Вероятностный график» выполняется объединение двух выборок и строится гистограмма. Для членов объединенной выборки рассчитывается их положение в упорядоченном ряду, для чего используется функция «РАНГ» (столбец «Ранг»).
По сути, результатом функции РАНГ является порядковый номер конкретного члена выборки в упорядоченном ряду. Будь наша выборка упорядочена, достаточно было бы пронумеровать члены итоговой выборки по порядку: «1-2-320000». Но выборка не упорядочена и нужна функция «РАНГ». Затем рассчитывается положение каждого члена исследуемой выборки как доля его порядкового номера от общей численности выборки (столбец «Положение члена выборки в долях численности распределения»).
Вероятностная кривая и соответствующая ей гистограмма: а однородного симметричного распределения, близкого к нормальному, б неоднородной выборки, представляющей собой объединение двух симметричных выборок, каждая из которых близка к нормальному распределению, в однородной выборки с большой правой асимметрией, г неоднородной выборки (интересно то, что обе сгенерированные выборки характеризуются правой асимметрией, которая при их смешении почти не видна)
Примечания
1
https://stepik.org/course/176352
2
https://github.com/andrey-vyaltsev/ResourceGeologistBasic
3
https://t.me/resource_geologists
4
https://en.wikipedia.org/wiki/Percentile
5
https://github.com/andrey-vyaltsev/ResourceGeologistBasic/blob/main/Variance.docx
6
https://github.com/andrey-vyaltsev/ResourceGeologistBasic/blob/main/Variance.xlsx
7
https://docs.google.com/spreadsheets/d/1dlF4GKxsQ9DQZoPm1JBFQss3XLXqgl_j3h7qTTrEfJM
8
https://github.com/andrey-vyaltsev/ResourceGeologistBasic/blob/main/Single_variable_statistical_analysis.xlsx
9
https://www.youtube.com/watch?v=vB73Ynza-0o
10
https://en.wikipedia.org/wiki/Slide_rule
11
https://github.com/andrey-vyaltsev/ResourceGeologistBasic/blob/main/Log_histo.xlsb
12
https://github.com/andrey-vyaltsev/ResourceGeologistBasic/blob/main/Probability_plot.xlsx