Шрифт:
Нормальное распределение
Часто нормальное распределение называют распределением Гаусса, или Муавра, в честь тех, кто, как считается, открыл его — Карл Фридрих Гаусс (1777-1855) и, веком ранее, что не так достоверно, Авраам де Муавр (1667-1754). Нормальное распределение считается наиболее ценным распределением, благодаря тому, что точно моделирует многие явления. Давайте рассмотрим приспособление, более известное как доска Галтона (рисунок 3-5). Это вертикально установленная доска в форме равнобедренного треугольника. В доске расположены колышки, один в верхнем ряду, два во втором, и так далее. Каждый последующий ряд имеет на один колышек больше. Колышки в сечении треугольные, так что, когда падает шарик, у него есть вероятность 50/50 пойти вправо или влево. В основании доски находится серия желобов для подсчета попаданий каждого броска.
Рисунок 3-5 Доска Галтона
Шарики, падающие через доску Галтона и достигающие желобов, начинают формировать нормальное распределение. Чем «глубже» доска (то есть чем больше рядов она имеет) и чем больше шариков бросается, тем ближе конечный результат будет напоминать нормальное распределение.
Нормальное распределение интересно еще и потому, что оно является предельной формой многих других типов распределений. Например, если Х распределено биномиально, а N стремится к бесконечности, то Х стремится к нормальному распределению. Более того, нормальное распределение также является предельной формой многих других ценных распределений вероятности, таких как Пуассона, Стьюдента (или t-распределения). Другими словами, когда количество данных (N), используемое в этих распределениях, увеличивается, они все более напоминают нормальное распределение.
Центральная предельная теорема
Одно из наиболее важных применений нормального распределения относится к распределению средних значений. Средние значения выборок заданного размера, взятые таким образом, что каждый элемент выборки отобран независимо от других, дадут распределение, которое близко к нормальному Это чрезвычайно важный факт, так как он означает, что вы можете получить параметры действительно случайного процесса из средних значений, рассчитанных на основе выборочных данных.
Рисунок 3-6 Экспоненциальное распределение и нормальное распределение
Таким образом, мы можем сформулировать, что если N случайных выборок извлекаются из совокупности всех данных, тогда суммы (или средние значения) выборок будут приблизительно нормально распределяться независимо от распределения совокупности, из которой взяты эти выборки. Близость к нормальному распределению увеличивается, когда N (число выборок) возрастает. В качестве примера рассмотрим распределение чисел от 1 до 100. Это равномерное распределение, где все элементы (в данном случае числа) встречаются только раз. Например, число 82 встречается один раз, так же как и 19, и так далее. Возьмем выборку из пяти элементов и среднее значение этих пяти элементов (мы можем также взять их сумму). Теперь поместим полученные пять элементов обратно, возьмем другую выборку и рассчитаем среднее. Если мы будем продолжать этот процесс дальше, то увидим, что полученные средние нормально распределяются, даже если совокупность, из которой они взяты, распределена равномерно.
Все вышесказанное верно независимо от того, как распределена совокупность данных! Центральная предельная теорема позволяет нам обращаться с распределением средних значений выборок, как с нормальным, без необходимости знать распределение совокупности. Это чрезвычайно удобный факт для многих областей исследований. Если совокупность нормально распределена, то распределение средних значений выборок будет точно (а не приблизительно) нормальным. Кроме того, скорость, с которой распределение средних значений выборок приближается к нормальному при повышении N, зависит от того, насколько близко совокупность находится к нормальному распределению. Общее практическое правило следующее: если совокупность имеет унимодальное (одновершинное) распределение (любой тип распределения, где есть концентрация частоты вокруг одной моды и уменьшение частот с любой стороны моды, например, выпуклость) или равномерно распределяется, то можно использовать N = 20 (это считается достаточным) и N = 10 (это считается достаточным с большой вероятностью). Однако если совокупность распределена экспоненциально (рисунок 3-6), тогда может потребоваться и N = 100.
Центральная предельная теорема, этот поразительно простой и красивый факт, подтверждает важность нормального распределения.
Работа с нормальным распределением
При использовании нормального распределения часто требуется найти долю площади под кривой распределения в данной точке на кривой. На математическом языке это называется интегралом функции, задающей кривую. Таким же образом функция, которая задает кривую, является производной площади под кривой. Если у нас есть функция N(X), которая представляет процент площади под кривой в точке X, мы можем говорить, что производная этой функции N'(X) является функцией самой кривой в точке X.
Мы начнем с формулы самой кривой N' (X). Данная функция выглядит следующим образом:
где U = среднее значение данных;
S =стандартное отклонение данных;
Х = наблюдаемая точка данных;
ЕХР = экспоненциальная функция.
Эта формула даст нам значение для оси Y, или высоту кривой, при любом данном значении X.
Часто мы будем говорить о точке на кривой, ссылаясь на ее координату X, и будем смотреть, на сколько стандартных отклонений она удалена от среднего. Таким образом, точка данных, которая удалена на одно стандартное отклонение от среднего, считается смещенной на одну стандартную единицу (standard units) от среднего.
Рисунок 3- 7 Функция плотности нормального распределения вероятности
Более того, часто имеет смысл из всех точек данных вычесть среднее. При этом центр распределения сместится в начало координат. В этом случае точка данных, которая смещена на одно стандартное отклонение вправо от среднего, имеет значение 1 на оси X.
Если мы вычтем среднее из точек данных, а затем разделим полученные значения на стандартное отклонение точек данных, то преобразуем распределение в нормированное нормальное (standardized normal). Это нормальное распределение со средним, равным 0, и дисперсией, равной 1. Теперь N'(Z) даст нам значение на оси Y (высота кривой) для любого значения Z: