Вход/Регистрация
Лягушка в кипятке и еще 300 популярных инструментов мышления, которые сделают вас умнее
вернуться

Макканн Лорен

Шрифт:

Получится ли воспроизвести?

Вы уже знаете, что результаты некоторых экспериментов – просто счастливая случайность. Чтобы удостовериться в том, что результат исследования не случаен, его необходимо воспроизвести. Интересно, что в некоторых областях, таких как психология, для воспроизведения положительных результатов предпринимались согласованные усилия, но эти усилия показали, что более 50 % положительных результатов невозможно воспроизвести.

Это низкий показатель и такая проблема с исключительно положительными результатами называется кризисом воспроизводимости. В этом последнем разделе мы предлагаем кое-какие модели, которые объясняют, как это происходит и как все равно получить больше доверия в своей области исследований.

Попытки воспроизведения – это попытки отличить ложноположительные результаты от истинно положительных.

Подумайте, каковы шансы воспроизведения в каждой из этих двух групп. Предполагается, что ложноположительный результат повторится – то есть ожидается получение второго ложноположительного результата при повторном эксперименте – всего в 5 % случаев. С другой стороны, ожидается, что истинно положительный результат повторится в 80–90 % случаев, в зависимости от мощности повторного исследования. Предположим, что это 80 %, как в предыдущем разделе.

Кризис воспроизводимости

Таким образом, для 50 % воспроизведения требуется, чтобы около 60 % исследований были истинно положительными, а 40 % – ложноположительными. Чтобы было понятнее, представьте 100 экспериментов: если 60 дадут истинно положительный результат, 48 из них должно быть можно воспроизвести (80 % от 60). Из оставшихся 40 ложноположительных результатов будут воспроизведены 2 (5 % от 40), чтобы в общей сложности получилось 50. Тогда уровень воспроизводимости будет 50 на 100 экспериментов, или 50 %.

Получается, в этом сценарии около четверти неудачных воспроизведений (12 из 50) будут объясняться недостатком мощности усилий для воспроизведения. Это реальный результат, который, скорее всего, будет воспроизведен успешно при проведении дополнительного исследования, или получился бы, если бы у первоначального воспроизведения была более крупная выборка.

Остальные результаты, которые не получилось воспроизвести, изначально и не должны были быть положительными. Многие из этих первоначальных исследований, вероятно, недооценили частоту ошибки типа I и повысили шансы получить ложноположительный результат. Это связано с тем, что при планировании исследования с 5 % шансом ложноположительного результата этот шанс применяется только к одной статистической проверке, но крайне редко такая проверка проводится всего один раз.

Проведение дополнительных проверок для поиска статистически значимых результатов имеет много названий, включая прочесывание, выуживание данных или p-взлом (попытка взломать данные в поисках достаточно малых p– значений). Часто это делается из лучших побуждений, потому что наблюдение за данными эксперимента воодушевляет и побуждает исследователя формировать новые гипотезы. Соблазн проверить дополнительные гипотезы велик, так как необходимые для их анализа данные уже собраны. Однако проблема возникает, когда исследователь преувеличивает результаты этих дополнительных испытаний.

Комикс XKCD[67], приведенный ниже, показывает, чем может обернуться выуживание данных: не найдя никакой статистически значимой связи между карамельками и прыщами, ученые продолжили прочесывать двадцать одну подгруппу, пока не нашли одну с существенно низким p– значением, из-за чего появился заголовок: «Прыщи появляются от зеленых карамелек!»

Каждый раз, когда проводилась очередная статистическая проверка, шанс сделать ошибочный вывод продолжал расти выше 5 %. Чтобы было понятнее, предположим, что у вас есть кубик с 20 гранями. Шансы сделать ошибку при первой проверке будут такими же, как шансы выбросить единицу. Каждый дополнительно проведенный тест будет еще одним броском кубика, каждый с новым шансом 1 к 20 выбросить единицу. После 21 броска (в соответствии с 21 цветной карамелькой в комиксе) будет шанс примерно 2/3, что единица выпала как минимум однажды, то есть был как минимум один ошибочный результат.

Если выуживание данных такого типа проводится достаточно часто, становится понятно, почему так много исследований, подлежащих воспроизведению, изначально бывают ложноположительными. Другими словами, в этом наборе из ста исследований базовый процент ложноположительного результата, скорее всего, был намного больше 5 %, поэтому значительную часть кризиса воспроизводимости можно объяснить ошибкой базового процента.

К сожалению, исследования с большей вероятностью опубликуют, если в них будут статистически значимые результаты, что приводит к искажению публикации. Исследования, которые не смогли показать статистически значимые результаты, все еще имеют научную значимость, но как сами ученые, так и издания предвзято относятся к ним по ряду причин. Например, в журнале ограничено количество страниц, и, выбирая между двумя исследованиями, редактор всегда отдаст предпочтение значимым результатам. Успешные исследования чаще привлекают внимание СМИ и научного сообщества. Вероятнее, что они также сильнее повлияют на карьеру исследователей.

Все эти факторы являются сильным стимулом к получению значительных результатов экспериментов. В комиксе, несмотря на то что первоначальная гипотеза не показала значимого результата, эксперимент был «спасен» и в конечном итоге опубликован, потому что нашлась второстепенная гипотеза, показавшая значимый результат.

Публикация ложноположительных результатов вроде этого напрямую способствует кризису воспроизводимости и задерживает научный прогресс, направляя будущие исследования к этим ложным гипотезам.

  • Читать дальше
  • 1
  • ...
  • 62
  • 63
  • 64
  • 65
  • 66
  • 67
  • 68
  • 69
  • 70
  • 71
  • 72
  • ...

Ебукер (ebooker) – онлайн-библиотека на русском языке. Книги доступны онлайн, без утомительной регистрации. Огромный выбор и удобный дизайн, позволяющий читать без проблем. Добавляйте сайт в закладки! Все произведения загружаются пользователями: если считаете, что ваши авторские права нарушены – используйте форму обратной связи.

Полезные ссылки

  • Моя полка

Контакты

  • chitat.ebooker@gmail.com

Подпишитесь на рассылку: