Вход/Регистрация
Введение в логику и научный метод
вернуться

Коэн Моррис Р.

Шрифт:

Еще один способ измерения отклонения можно получить в результате расстановки предметов по мере их увеличения и отыскания тех трех значений (item), которые делят общую последовательность на четыре равные части. Эти значения называются «первый квартиль», «второй квартиль» (или медиана) и «третий квартиль». Если Q1 – это первый квартиль, a Q3 – третий, то квартильное отклонение определяется как (Q3 – Q1) / 2. Очевидно, что половина значений группы должна лежать между первым и третьим квартилями. По этой причине квартильное отклонение иногда также называется «вероятностной ошибкой». Если мы используем запись 65,5 ± 2 (где 65,5 является термином, находящимся посередине между первым и третьим квартилем, а 2 – квартальным отклонением), то внутри указанных границ (63,5 и 67,5) будет столько же значений, сколько и снаружи. Иными словами, предполагается, что когда мы произвольно выбираем какие-либо значения группы, то вероятность того, что мы выберем значение, находящееся внутри указанных границ, равна вероятности того, что мы выберем значение за их пределами. Однако выбор термина «вероятностная ошибка» здесь не вполне удачен и сбивает с толку, т. к. в литературе по данной теме этим термином принято обозначать и другие вещи.

§ 4. Измерение корреляции

Целью всех научных исследований является отыскание значимых отношений внутри изучаемой предметной области. Цель же статистических исследований заключается в том, чтобы облегчить процесс данного открытия и дать возможность выразить отношения между различными группами признаков. Мы собираем статистические данные относительно вопросов, связанных с жизнью, для того чтобы сравнивать такие вещи, как рождаемость, смертность, бедность и т. д., за два различных года. Мы собираем данные о числе несчастных случаев и количестве часов нахождения на рабочем месте на нескольких промышленных предприятиях для того, чтобы установить отношение (если таковое имеется) между этими двумя наборами явлений. Это делается для того, чтобы установить, связаны ли эти обстоятельства причинно-следственной связью или же являются частично или полностью независимыми друг от друга.

Мы уже рассмотрели средние показатели и меры дисперсии, которые обусловливают возможность более или менее точного сравнения групп. Для многих целей рассмотренные статистические числа – это все, что нам нужно. Так, мы можем сравнить доход некоторой общины на протяжении различных лет, используя один из средних показателей и измерения разброса. Иногда становятся полезными процентные отношения. Росла ли численность населения Германии быстрее, чем численность населения Франции между 1900-м и 1910 г.? Увеличение численности населения в процентах в большинстве случаев будет служить мерой такого роста. Существует ли отношение между орлиной формой носа и еврейским происхождением? Недвусмысленный ответ на этот вопрос был получен из данных, согласно которым в достаточно представительных выборках евреев лишь 14 % обладало «характерным еврейским носом».

Однако бывают ситуации, когда никакой из рассмотренных статистических методов не является удовлетворительным. Предположим, мы исследовали несколько сотен листьев с деревьев на предмет соответствия их длины и ширины. Существует ли связь между длиной и шириной листа? На основании наших общих впечатлений мы можем сформировать убеждение о том, что чем длиннее лист, тем он и шире. Однако когда нам приходится рассмотреть множество листьев, то мы уже не можем опираться на поверхностные впечатления, поскольку мы не можем ни запомнить все рассмотренные листы, ни установить между ними значимые отношения. В таком случае мы можем попробовать разложить листья в порядке увеличения их длины, для того чтобы посмотреть, увеличивается ли при этом их ширина. Если две последовательности совпадают, то мы, без сомнения, сможем заключить, что существует определенное отношение между длиной и шириной листа. Если две последовательности совпадают не полностью, а лишь частично, то мы все равно можем подозревать наличие некоторого отношения. Однако нам потребуется некоторая численная мера для соотнесения длин и ширин листьев. Считается, что переменные являются коррелированными, если в последовательности соответствующих примеров этих переменных увеличению или уменьшению в значениях одной из них сопутствует увеличение или уменьшение в значениях другой, будь то в едином направлении или в разных направлениях. Когда значения переменных изменяются в одном направлении (вместе увеличиваются или вместе уменьшаются), корреляция является положительной; когда значения переменных изменяются в противоположных направлениях (одни увеличиваются, а другие уменьшаются), то корреляция является отрицательной.

Существует несколько видов измерения корреляции. Мы рассмотрим только один такой вид, называемый коэффициентом Пирсона. Однако мы не будем рассматривать способ получения этого коэффициента, в силу того что используемый для этих целей аргумент является техническим. Мы просто приведем его определение и продемонстрируем, как он используется. Пусть h1, h2… hn будут значениями переменной h, a w1, w2… wn будут соответствующими значениями переменной w. Это означает, что когда h стоит в значении hlf w стоит в значении и т. д. Далее пусть х1, х2… хn представляют отклонения значений первой переменной от среднего арифметического в n примерах, а у1, у2…уn представляют соответствующие отклонения значений второй переменной. Символы х и y будут, как обычно, представлять стандартное отклонение для двух последовательностей. В таком случае коэффициент Пирсона будет обозначаться как

где (ху) обозначает сумму всех произведений соответствующих отклонений, и данная формула читается так: среднее арифметическое произведений отклонений, деленное на произведение двух стандартных отклонений.

Высчитаем данный коэффициент для определения меры корреляции между возрастами мужей и жен в группе из двадцати пар. Таблица на с. 429 представляет необходимую информацию. Следовательно,

Коэффициент Пирсона построен таким образом, что его численное значение положительно, когда корреляция положительна, и отрицательно, когда корреляция отрицательна. Более того, его значение всегда лежит между +1 и -1, где «+ 1» обозначает прямолинейную положительную корреляцию, а «-1» – прямолинейную отрицательную корреляцию. Коэффициент 0 указывает на отсутствие корреляции; в таком случае на основании имеющегося знания о том, как происходят изменения значений одной переменной, мы не можем ничего вывести о том, как происходят изменения значений второй переменной.

§ 5. Опасности и ошибки при использовании статистических методов

Несмотря на свою большую ценность, статистические данные могут быть неправильно использованы и неверно проинтерпретированы, если не учтены допущения, требующиеся для их использования. Поэтому мы должны предостеречь читателя от приведенных ниже элементарных, но часто встречающихся ошибок.

1. Статистические данные предлагают в суммарном виде информацию о признаках некоторой группы значений. Они не предлагают никакой информации ни об одном конкретном элементе группы. Из знания о том, что рождаемость мужчин примерно равна половине от общего показателя рождаемости, мы не можем ничего вывести относительно пола ребенка, который родится следующим.

2. Средние статистические показатели не могут без дополнительного изучения интерпретироваться как представляющие строго неизменные отношения внутри конкретной группы. Бокль в своей работе «История цивилизации в Англии» из статистических данных об убийствах, самоубийствах, браках и письмах, находящихся в Бюро невостребованных писем выводил заключение о том, что «убийства совершаются с такой же регулярностью и связаны таким же единообразным отношением с некоторыми известными обстоятельствами, как приливы и отливы и смена времен года… Убийство является всего лишь следствием общего состояния общества, и… каждый отдельный преступник является лишь исполнителем того, что на самом деле является необходимым следствием предшествующих обстоятельств. В данном состоянии общества определенное число людей должны совершить самоубийство. Это является общим законом, а вопрос о том, кто именно совершит преступление, является специальным и поэтому зависит от специальных законов, которые, однако, в своей совокупности должны подчиняться большому социальному закону, которому все они подчинены. Могущество большого закона столь неотразимо, что ни любовь к жизни, ни страх иного мира не способны никак повлиять на его осуществление… Даже число браков, заключаемых ежегодно, определяется не чувствами или желаниями индивидов, а большими общими фактами, неподчиненными отдельным индивидам… Теперь мы можем даже доказать то, что провалы в памяти также являются следствиями этого общего признака необходимого и неизбежного порядка» [94] . Заключения Бокля не подтверждаются основаниями, которые он приводит. Число ежегодных самоубийств может оставаться неизменным на протяжении лет, однако из этого не следует, что определенное число самоубийств должно происходить каждый год, поскольку, во-первых, нам не известны точные факторы (если таковые вообще существуют), обусловливающие самоубийство, а во-вторых, мы не знаем, проявятся ли данные факторы и в последующие годы.

  • Читать дальше
  • 1
  • ...
  • 109
  • 110
  • 111
  • 112
  • 113
  • 114
  • 115
  • 116
  • 117
  • 118
  • 119
  • ...

Ебукер (ebooker) – онлайн-библиотека на русском языке. Книги доступны онлайн, без утомительной регистрации. Огромный выбор и удобный дизайн, позволяющий читать без проблем. Добавляйте сайт в закладки! Все произведения загружаются пользователями: если считаете, что ваши авторские права нарушены – используйте форму обратной связи.

Полезные ссылки

  • Моя полка

Контакты

  • chitat.ebooker@gmail.com

Подпишитесь на рассылку: