Шрифт:
Сегодня мы купаемся в некогда гипотетических волнах Максвелла, имея радио, телевидение, сотовые телефоны и Wi-Fi. Таково наследие его колдовства с символами.
Часть V. Многоликие данные
22. Новая нормальность
Статистика внезапно стала сверхмодным направлением. С появлением интернета, электронной торговли, социальных сетей, проекта по расшифровке генома человека, а также в связи с развитием цифровой культуры в целом мир стал захлебываться в данных. [113] Маркетологи изучают наши вкусы и привычки. Разведывательные службы собирают информацию о нашем местонахождении, электронной переписке и телефонных звонках. Специалисты по спортивной статистике жонглируют цифрами [114] , решая, каких игроков покупать, кого набирать в команду, а кого посадить на скамью запасных. Каждый стремится объединить точки в график и обнаружить закономерность в беспорядочном скоплении данных.
113
Новейшие исследования в области данных см. в работах S. Baker, The Numerati (Houghton Mifflin Harcourt, 2008); I. Ayres, Super Crunchers (Bantam, 2007).
114
Как специалисты по спортивной статистике жонглируют цифрами, см. M. Lewis, Moneyball (W. W. Norton and Company, 2003).
Неудивительно, что эти тенденции отражаются и в обучении. «Давайте обратимся к статистике» [115] , — увещевает в своей колонке газеты New York Times Грег Мэнкью, экономист из Гарвардского университета. «В учебной программе по математике в средней школе слишком много времени уделяется традиционным темам, таким как евклидова геометрия и тригонометрия. Эти полезные для обычного человека умственные упражнения, однако, малоприменимы в повседневной жизни. Учащимся было бы гораздо полезнее больше узнать о теории вероятности и статистике». Дэвид Брукс идет еще дальше [116] . В своей статье, посвященной дисциплинам, заслуживающим внимания для получения достойного образования, он пишет: «Возьмите статистику. Вот увидите, окажется, что знание того, что такое стандартное отклонение, вам очень пригодится в жизни».
115
См. N. G. Mankiw, A course load for the game of life, New York Times (September 4, 2010).
116
См. D. Brooks, Harvard-bound? Chin up, New York Times (March 2, 2006).
Вполне вероятно, а еще неплохо разбираться в том, что такое распределение. Это первое, о чем я намерен поговорить. И хотел бы заострить на нем внимание, поскольку в этом заключается один из главных уроков статистики [117] : вещи кажутся безнадежно случайными и непредсказуемыми при рассмотрении их по отдельности, однако в совокупности в них обнаруживается закономерность и предсказуемость.
Возможно, вы видели демонстрацию этого принципа в каком-нибудь научном музее (если нет, видеоролики можно найти в интернете). Типичный экспонат представляет собой приспособление под названием доска Гальтона [118] , которая чем-то напоминает автомат для игры в пинбол, только без флипперов. Внутри его с равными интервалами располагаются ровные ряды штырьков.
117
Введение в статистику вместе с захватывающими историями найдете в книгах D. Salsburg, The Lady Tasting Tea (W. H. Freeman, 2001); L. Mlodinow, The Drunkard’s Walk (Pantheon, 2008).
Прим. ред.: Введение в статистику на русском языке: Положинцев Б.И. Теория вероятностей и математическая статистика. Введение в математическую статистику: Учебное пособие. СПб.: Изд-во Политехн. ун-та, 2010; Орлов А.И. Прикладная статистика. М.: Экзамен, 2004.
118
Если вы не знакомы с доской Гальтона, можете посмотреть опыты с ней на YouTube: http://www.youtube.com/watch?v=xDIyAOBa_yU.
Опыт начинается с того, что в верхнюю часть доски Гальтона запускаются сотни шариков. При падении они сталкиваются со штырьками и с равной вероятностью отскакивают то вправо, то влево, а затем распределяются внизу доски, попадая в отсеки одинаковой ширины. Высота столбика из шариков показывает, с какой вероятностью шарик может оказаться в данном месте. Большинство шариков размещаются примерно в середине, по бокам их уже меньше, и еще меньше — по краям. В общем, картина чрезвычайно предсказуема: шарики всегда образуют распределение в форме колокола, хотя предугадать, где окажется каждый отдельно взятый шарик, невозможно.
Каким образом отдельные случайности превращаются в общие закономерности? Но именно так действует случайность. В среднем столбике скопилось больше всего шариков потому, что, прежде чем скатиться вниз, многие из них совершат примерно одинаковое количество прыжков вправо и влево и в результате окажутся где-то посередине. Несколько одиноких шариков, расположившихся по краям, образуют хвосты распределения — это те шарики, которые при столкновении со штырьками отскакивали всегда в одном направлении. Такие отскоки маловероятны, поэтому по краям так мало шариков.
Подобно тому как местоположение каждого шарика определяется суммой множества случайных событий, многие явления в этом мире являются следствием множества мелких обстоятельств и тоже подчиняются колоколообразной кривой. По этому принципу работают страховые компании. Они с высокой точностью могут назвать количество своих клиентов, которые умирают каждый год. Однако не знают, кому именно не повезет на этот раз.
Или возьмем, к примеру, рост человека. Он зависит от бесчисленного количества случайностей, связанных с генетикой, биохимией, питанием и окружающей средой. Следовательно, велика вероятность, что при рассмотрении в совокупности рост взрослых мужчин и женщин будет представлять собой колоколообразную кривую [119] .
119
Данные о распределении роста населения США см. в статье M. A. McDowell et al., Anthropometric reference data for children and adults: United States, 2003–2006, National Health Statistics Reports, № 10 (October 22, 2008), доступна на http://www.cdc.gov/nchs/data/nhsr/nhsr010.pdf.
В одном блоге под названием «Ложные данные, которые люди сообщают о себе в интернете» статистическая служба сайта знакомств OkCupid [120] недавно опубликовала график роста своих клиентов или, скорее, указанных ими значений. Обнаружилось, что показатели роста представителей обоих полов, как и ожидалось, образуют колоколообразную кривую. Однако удивительно то, что оба распределения были примерно на два дюйма смещены вправо относительно ожидаемых значений.
<120
OkCupid — самый большой бесплатный сайт знакомств в США, который летом 2011 года насчитывал семь миллионов активных пользователей. Специалисты сайта в области статистики проводят собственный анализ на основе анонимных и обобщенных данных его клиентов, а затем публикуют результаты исследований в своем блоге OkTrends . Распределения роста см. C. Rudder, The big lies people tell in online dating, наЯ благодарю Кристиана Раддера за любезно предоставленную возможность использовать графики, приведенные в его блоге.
Таким образом, либо рост клиентов, опрошенных компанией OkCupid, превышает средний, либо при описании себя в интернете они прибавляют к своему росту еще пару дюймов.
Идеализированной версией подобных колоколообразных кривых является то, что математики называют нормальным распределением. Это одно из важнейших понятий в статистике, имеющее теоретическое обоснование. Можно доказать, что нормальное распределение возникает при сложении большого количества мелких случайных факторов, причем каждый из них действует независимо от других. И многие события происходят именно таким образом.