Шрифт:
Очевидно, что при попытках предсказать уровень игры на пианино по весу или наоборот, будет появляться регрессия к среднему. Если о Томе известно лишь то, что он по весу двенадцатый (намного выше среднего), можно сделать статистический вывод, что Том, вероятно, старше среднего и, возможно, потребляет больше мороженого, чем другие. Если о Барбаре известно лишь то, что она восемьдесят пятая по пианино (намного ниже среднего по группе), можно сделать вывод, что Барбара, скорее всего, еще маленькая и, наверное, занимается меньше других.
Коэффициент корреляции между двумя величинами, варьирующийся от 0 до 1, – это мера относительного веса факторов, влияющих на обе из них. Например, у всех нас половина генов – общая с каждым из родителей, и у черт, на которые внешние факторы влияют мало (например, у роста), корреляция между показателями родителя и ребенка близка к 0,5. Чтобы оценить значение меры корреляции, приведу несколько примеров коэффициентов:
• Корреляция между размерами объектов, точно измеренных в метрических или в имперских единицах, составляет 1. Все определяющие факторы влияют на оба измерения.
• Корреляция между весом и ростом, сообщенными респондентами, для взрослых американских мужчин составляет 0,41. Если включить в группу женщин и детей, то корреляция будет намного выше, поскольку пол и возраст индивида влияют на их оценку своего роста и веса, что увеличивает относительные значения общих факторов.
• Корреляция между школьными тестами на определение академических способностей и средним баллом в колледже равна примерно 0,60. Однако корреляция между тестами на проверку способностей и успехами в магистратуре намного ниже – в основном потому, что уровень способностей в этой группе не слишком различается. Если способности у всех примерно одинаковы, то разница в этом параметре вряд ли сильно повлияет на меру успеха.
• Корреляция между доходом и уровнем образования в США составляет примерно 0,40.
• Корреляция между доходом семьи и последними четырьмя цифрами номера их телефона равна 0.
Фрэнсису Гальтону потребовалось несколько лет, чтобы понять, что корреляция и регрессия – это не две разные концепции, а две точки зрения на одну. Общее правило довольно простое, но у него удивительные следствия: в случаях, когда корреляция не идеальна, наблюдается регрессия к среднему. Чтобы проиллюстрировать открытие Гальтона, возьмем предположение, которое многие находят довольно любопытным:
Умные женщины часто выходят замуж за менее умных мужчин.
Если на вечеринке попросить ваших приятелей найти объяснение этому факту, то интересный разговор вам обеспечен. Даже знакомые со статистикой люди проинтерпретируют это утверждение в каузальных терминах. Кто-то решит, что умные женщины стремятся избежать конкуренции умных мужчин; кто-то предположит, что они вынуждены идти на компромиссы при выборе супруга из-за того, что умные мужчины не хотят соревноваться с умными женщинами; другие предложат более надуманные объяснения. А теперь подумайте над следующим утверждением:
Корреляция между оценками интеллекта супругов не идеальна.
Разумеется, это утверждение верно – и совершенно неинтересно. В этом случае никто не ожидает идеальной корреляции. Объяснять здесь нечего. Тем не менее с алгебраической точки зрения эти два утверждения эквивалентны. Если корреляция между оценками интеллекта супругов не идеальна (и если женщины и мужчины в среднем не различаются по интеллекту), то математически неизбежно, что умные женщины выйдут замуж за мужчин, которые в среднем будут менее умными (и наоборот). Наблюдаемая регрессия к среднему не может быть более интересна или более объяснима, чем неидеальная корреляция.
Гальтону можно посочувствовать – попытки понять и объяснить феномен регрессии даются нелегко. По ироническому замечанию статистика Дэвида Фридмана, если вопрос о регрессии возникает в ходе судебного разбирательства, та сторона, которой приходится объяснять его суть присяжным, обязательно проигрывает. Почему это так сложно? Главная причина трудностей регулярно упоминается в этой книге: наш разум склонен к каузальным объяснениям и плохо справляется с «простой статистикой». Если какое-то событие привлекает наше внимание, ассоциативная память начинает искать его причину, а точнее, активируется любая причина, уже хранящаяся в памяти. При обнаружении регрессии подыскиваются каузальные объяснения, но они будут неверными, потому что на самом деле у регрессии к среднему объяснение есть, а причин нет. Во время турниров по гольфу наше внимание привлекает тот факт, что спортсмены, хорошо игравшие в первый день, потом зачастую играют хуже. Наилучшее объяснение состоит в том, что этим гольфистам в первый день необычно повезло, но такому объяснению не хватает силы каузальности, которую предпочитают наши разумы. Мы неплохо платим тем, кто придумывает для нас интересные объяснения эффектов регрессии. Комментатор на канале деловых новостей, который верно заметит, что «для бизнеса этот год был лучше, потому что прошлый год был неудачным», скорее всего, недолго продержится в эфире.
Наши трудности с пониманием регрессии возникают и из-за Системы 1, и из-за Системы 2. Без дополнительных инструкций (а во многих случаях – даже после некоторого знакомства со статистикой) отношение между корреляцией и регрессией остается неясным. Системе 2 трудно его понять и усвоить. Частично это происходит из-за настойчивых требований Системы 1 давать каузальные объяснения.
Трехмесячное применение энергетических напитков для лечения депрессии у детей дает значительные улучшения состояния.