Шрифт:
Некоторых сбивает с толку условная вероятность. Они путают вероятность того, что событие А произойдет при условии, что произошло событие В – Р(А|В), – с вероятностью того, что событие В произойдет при условии, что произошло событие А – Р(В|А). Это называется обратной ошибкой. Вы только что видели, что Р (рак груди в 90 лет | женщина с мутацией BRCA) составляет около 80 %, но вероятность Р (женщина с мутацией BRCA | рак груди в 90 лет) составляет всего 5–10 %, поскольку рак груди развивается у многих других людей без этой мутации.
Разберем более длинный пример, чтобы посмотреть на эту ошибку в действии. Допустим, полиция останавливает произвольного водителя, чтобы проверить на алкоголь, и заставляет его подышать в трубочку. Кроме того, предположим, что тест выдает ошибку примерно в 5 % случаев, показывая, что трезвый человек пьян. Какова вероятность, что этого человека несправедливо обвинят за вождение в нетрезвом виде?
Скорее всего, вы первым делом назовете 5 %. Однако вам дана вероятность, что тест объявляет человека пьяным, даже если на самом деле он трезв, то есть Р (тест = пьян | человек = трезв) = 5 %. Но что, если вас спросят, какова вероятность того, что человек трезв, если тест говорит, что он пьян, или Р (человек = трезв | тест = пьян)? Это совсем другая вероятность!
Вы не учли зависимость результата от базового процента пьяных за рулем. Представьте сценарий, где все ведут себя правильно и никто никогда не садится за руль пьяным. В таком случае вероятность, что человек трезв, будет 100 %, независимо от того, что покажет алкотестер. Когда при расчете вероятности не учитывается базовый процент (например, базовый процент числа пьяных водителей), такая ошибка называется ошибкой базового процента.
Представим себе более реалистичный базовый процент, когда пьян 1 водитель из 1000. Значит, есть маленький шанс (0,1 %), что человек, которого случайно остановила полиция, пьян. А так как мы знаем, что один из 20 тестов выдает ошибку (ошибка возникает в 5 % случаев), полиция, скорее всего, сделает очень много ошибок, прежде чем действительно поймает пьяного за рулем.
На самом деле,
если полиция остановит тысячу человек, в среднем они проведут около 50 ошибочных тестов, пытаясь найти одного по-настоящему нетрезвого водителя. Таким образом, вероятность ошибки алкотестера составляет всего 2 %,
то есть аппарат ошибочно показывает, что человек пьян. Или можно заявить, что трезвые водители попадаются в 98 % случаев. А это намного, намного больше, чем 5 %!
Итак, Р(А|В) не равно Р(В|А), но как же они связаны? Существует очень полезная теорема Байеса, которая показывает взаимосвязь между этими двумя условными вероятностями. Вот как на примере нетрезвого вождения можно применить теорему Байеса, чтобы вычислить результат в 2 %.
Теорема Байеса
Ошибка базового процента
Теперь, когда вы знаете о теореме Байеса, вы также должны знать, что в статистике есть две школы, основанные на разных представлениях о вероятности: частотная и байесовская. Большинство исследований, о которых вы слышите в новостях, основаны на частотной статистике, которая требует и опирается на множество наблюдений за событием, прежде чем сделать надежные статистические выводы. Частотники считают, что вероятность фундаментально связана с частотой возникновения событий.
Наблюдая частоту результатов в большой выборке (например, спрашивая большое количество людей, одобряют ли они Конгресс), частотники вычисляют неизвестное количество. Но если точек ввода данных очень мало, они ничего не могут сказать по существу, потому что доверительные интервалы, которые они вычислят, будут очень большими. С их точки зрения, вероятность без наблюдений не имеет смысла.
Напротив, байесовцы позволяют себе вероятностные суждения о любой ситуации, независимо от того, были ли какие-либо наблюдения. Для этого они начинают с приведения соответствующих данных к статистическим определениям. Например, подбирая монетку на улице, изначально вы, вероятно, решите, что шансы выбросить решку составляют 50/50, даже если никогда раньше не видели, чтобы эту монетку подбрасывали. В байесовской статистике можно учесть в задаче такое знание базовых процентов. А в частотной статистике так сделать нельзя.
Многие люди считают байесовский взгляд на вероятность более интуитивным, потому что он похож на естественное развитие ваших убеждений. В повседневной жизни вы не начинаете каждый раз с нуля, как частотники. Например, в вопросах политики отправная точка – это ваши знания по определенному вопросу (байесовцы зовут это априори), но получив новые данные, вы (будем надеяться) обновите свое априори на их основании. То же самое верно для отношений, когда начальная точка для вас – это пережитый вами опыт с определенным человеком.