Шрифт:
Вывод о наличии или отсутствии связи делается на основании проверки статистической гипотезы о независимости признаков. Самым простым из возможных критериев проверки, пожалуй, является 2 («хи-квадрат») К. Пирсона. На основе разницы между ожидаемыми при независимости признаков и наблюдаемыми частотами в каждой ячейке рассчитывается значение статистики хи-квадрат, и на его основе можно сделать вывод о статистической независимости изучаемых признаков или же, наоборот, о наличии статистически значимой связи. Однако существенное ограничение: критерий хи-квадрат Пирсона некорректно использовать, если среди ячеек таблицы сопряженности есть такая, ожидаемое значение в которой меньше пяти. Это ограничение связано с тем, что распределение хи-квадрат, на основе которого проверяется гипотеза, является непрерывным, в то время как одноименная статистика, высчитываемая на основе выборки, явно принимает конечное число значений. В подобной ситуации рекомендуется использовать точный критерий Фишера (о других критериях см. подробнее [Аптон, 1982, с. 16–40]).
Вообще, диапазон возможных критериев для анализа таблиц сопряженности достаточно широк. Так, V-критерий Крамера также использует статистику хи-квадрат, но является мерой связи между признаками и лежит в границах от 0 до 1. Лямбда-критерии Гудмана и Краскела позволяют ответить на вопрос о силе связи между номинальными признаками, основываясь на предсказании категории одного признака при известной категории другого. Тау-критерии являются вероятностными мерами верной классификации, но избавлены от некоторых недостатков лямбда-критериев. Гамма Гудмана и Краскела отвечает на вопрос о связи порядковых признаков [см. подробнее: Аптон, 1982].
Исследование связи номинальных признаков – типичная социологическая задача. В политологии же чаще наблюдается необходимость в исследовании взаимосвязи признаков, измеренных в непрерывной или порядковой шкале. Для этого обычно применяется корреляционный анализ. Он позволяет установить наличие и силу статистической линейной взаимосвязи двух и более показателей, а также ее направление (положительное или отрицательное). Оценкой истинной степени линейной связи между признаками является коэффициент корреляции, рассчитанный по выборке. Он принимает значения от -1 до 1, и чем больше абсолютное значение коэффициента, тем сильнее взаимосвязь. Значения, близкие к нулю, говорят о наличии слабой связи или ее отсутствии вовсе. Напомним, что коэффициент корреляции не интерпретируется в терминах каузальной связи.
Если анализируемые признаки x и y измерены в количественной шкале, то по выборке рассчитывается коэффициент корреляции r К. Пирсона. К минусам коэффициента Пирсона можно отнести его неустойчивость к нетипичным наблюдениям (статистическим выбросам), а также неспособность выявить нелинейную взаимосвязь. Этот недостаток преодолевают коэффициенты ранговой корреляции: Ч.Э. Спирмена и М.Ж. Кендалла . Они улавливают нелинейную монотонную связь, возрастающую или убывающую, и более устойчивы к нетипичным наблюдениям, поскольку «работают» с рангами единиц наблюдения.
Подчеркнем, что коэффициент корреляции является лишь выборочной оценкой теоретической корреляции (корреляции между признаками в генеральной совокупности), поэтому при работе с малыми выборками недостаточно знать значение коэффициента – требуется также проверить на его основе статистическую гипотезу о том, что корреляция генеральной совокупности равна нулю.
Общей проблемой коэффициентов корреляции является возможность выявления так называемой ложной корреляции (spurious correlation), которая обнаруживается, если каждый из них по отдельности связан с третьей, неучтенной в анализе, переменной. Такая корреляция может в большей или меньшей степени поддаваться содержательной интерпретации, но именно влияние третьей переменной на первые две обусловливает установленную связь. Примером такой ситуации может быть отрицательная корреляция между объемами продаж мороженого и степенью твердости асфальтового покрытия. На самом деле, на оба показателя влияет погода, точнее – температура воздуха [Кимбл, 1982, с. 196]. На ложную корреляцию можно смотреть и иначе: это явление возникает тогда, когда анализу подвергаются чрезвычайно разнородные объекты. В таком случае взаимосвязь между какими-то признаками может возникнуть как эффект разнородности.
К сожалению, в социальных науках в большинстве ситуаций нет понимания того, как устроен порождающий данные процесс, какова механика формирования числового значения показателя. Это делает угрозу ложных корреляций чрезвычайно серьезной и обусловливает особое внимание исследователей к другому инструменту изучения связи признаков – регрессии.
Регрессионный анализ позволяет описать направление и вид постулируемой статистической взаимосвязи между объясняемой переменной («отклика») и одной или несколькими объясняющими переменными на достаточно большой выборке. Это может быть как пространственная (кросс-секционная) выборка, так и временной ряд или пространственно-временная выборка. Результатом регрессионного анализа является доля объясненной изменчивости «отклика» (коэффициент детерминации R2) и оценки степени связи предикторов с «откликом» (регрессионный коэффициент).
Линейная регрессионная модель с одной объясняющей переменной (парная регрессия) может быть записана следующим образом:
yi = 0 + 1x1 + i,
где индексом i обозначается номер объекта, yi – объясняемая переменная; xi – первая объясняющая переменная, измеренная на i объекте; i – случайный член (ошибка регрессионной модели, отражающая влияние факторов, неучтенных в рамках имеющейся спецификации, а также ошибки измерения признаков); коэффициент 0 – константа – среднее значение зависимой переменной в том случае, если предиктор принимает значение ноль (поэтому константа не всегда имеет содержательную интерпретацию). Коэффициент 1 показывает среднюю разницу между значением «отклика» и средним значением у тех объектов, у которых значение независимой переменной больше среднего на единицу. В тех случаях, когда исследователь готов постулировать причинно-следственную связь, говорят, что 1 показывает, как в среднем изменится значение «отклика» при росте значения объясняющей переменной x на единицу.
В большинстве случаев в регрессиях, особенно построенных по пространственным выборкам, трудно (если вообще возможно) говорить об отсутствии неучтенных переменных, которые оказывают значимое влияние на зависимую переменную, а также каким-либо образом связаны с другими объясняющими переменными. Возникающее при их наличии смещение приводит к неверной оценке регрессионных коэффициентов, причем направление и размер смещения заранее не известны исследователю. Учесть в анализе такой набор факторов, чтобы объекты анализа (индивиды, фирмы, государства) стали сопоставимыми, а переменные, включенные в регрессионное уравнение, не транслировали влияние третьих факторов, не включенных в спецификацию, призвана множественная регрессия.