Шрифт:
Существуют две основные группы шкал измерения показателей (переменных): количественные и категориальные [Analysis of multivariate social science data, 2008, p. 8–10]. Переменные количественного уровня могут принимать как целые, так и дробные значения. Для них разница между двумя значениями по шкале является осмысленной величиной. К таким переменным относятся, например, росто-весовые показатели, число наступлений события, денежные единицы, проценты и доли и др., а также латентные показатели – интеллектуальные способности, демократия 34 , политическая культура и т.п., измеряемые только через моделирование. Признаки, измеренные в номинальных или порядковых (ординальных) шкалах называются категориальными. Обе шкалы позволяют распределить все наблюдения на категории (группы). Разница состоит в том, что в порядковой шкале упорядочение категорий разумно, скажем, уровня образования, а в номинальной шкале, например по признаку «страна рождения» или «пол», – нет.
34
Здесь предполагается, что уровень демократии измеряется не в дихотомической шкале («есть» vs «нет»), а может быть представлен точкой на отрезке вещественной прямой. О дискуссии между сторонниками и противниками измерения демократии как непрерывного по своей природе показателя заинтересованный читатель может узнать, например, из работы [Collier, Adcock, 1999].
Математические методы обработки количественных и категориальных данных существенным образом различаются, поэтому определение типа шкалы, в которой измерены признаки, – обязательный этап анализа данных.
Заметим, что вне зависимости от типа шкалы во многих случаях характер генезиса признаков можно считать схожим: интересующие исследователя социальные явления мыслятся как стохастические, т.е. не являющиеся жестко детерминированными и испытывающие влияние множества случайных факторов. Например, результаты социологического опроса для выявления установок по отношению к мигрантам. На ответы могут влиять не только действительные установки опрашиваемого, но и самочувствие, погода, личные переживания, личность интервьюера, проводящего опрос. К анализу многих признаков, природа которых обусловлена как закономерностями, так и случайностью, может применяться инструментарий теории вероятностей и математической статистики.
Стохастический взгляд на исследуемые признаки предполагает, что конкретные наблюдения суть результаты реализации некоторого порождающего данные процесса, который в новой ситуации может привести к возникновению другого набора значений. Следовательно, имеющиеся данные – это только выборка из некоторой генеральной совокупности (некоторого закона распределения, характеризующего порождающий данные процесс). Иногда на первый взгляд неочевидно, что помимо полученной «выборки» есть еще какая-то генеральная совокупность. Например, если исследуется ВВП / человек в постсоветских государствах в 1991–2012 гг., то что считать генеральной совокупностью? В этой ситуации продуктивным может оказаться осознание того, что ВВП / человек – это результат взаимодействия множества экономических, демографических, социальных и природных процессов, значительное число которых носит недетерминированный характер. Следовательно, содержательно важной может быть задача отделения результатов экономических процессов от совокупности прочих (случайных) факторов. При такой постановке вопроса генеральной совокупностью может считаться множество значений, которые изучаемый признак мог принять на рассматриваемых объектах при данных характеристиках экономических процессов и совокупности влияющих случайных факторов.
К анализу многих признаков, природа которых обусловлена как закономерностями, так и случайностью, может применяться инструментарий теории вероятностей и математической статистики. Основной задачей, решаемой с помощью количественных методов, является инференция – получение вывода о характеристиках порождающего данные процесса на основе имеющихся выборочных данных. Наиболее широкое распространение получили два инструмента статистического вывода, речь о которых пойдет ниже: статистическое оценивание и проверка статистических гипотез.
Под статистическим оцениванием понимается установление приблизительного значения некоторого параметра генеральной совокупности на основе выборки. Сами оценки могут быть точечными (т.е. дающими на основе выборки конкретное числовое значение, которое считается достаточно близким к неизвестному параметру генеральной совокупности) или интервальными (так называемые доверительные интервалы, которые по выборке указывают не одно значение, а целый диапазон, в котором с некоторой, заданной исследователем, вероятностью, лежит неизвестный параметр распределения). При проверке статистической гипотезы исследователь сначала формулирует предположение про значение неизвестного параметра генеральной совокупности, затем устанавливает из этого предположения некоторое следствие, которое должно наблюдаться, если гипотеза верна, и не должно, если она ошибочна. Далее остается только узнать, наблюдается ли это следствие в данных или нет, и сделать вывод (конечно, не однозначный, а допускающий некоторую вероятность ошибки – ведь сами данные рассматриваются как результат случайного эксперимента).
Описанная логика работы с данными как результатами реализации случайных величин особенно естественна в случае количественных показателей, которые могут непосредственно отождествляться со случайными величинами. Так, случайной величиной можно назвать ВВП / человек в отдельном государстве, уровень безработицы, число респондентов в выборке, заявивших о поддержке некоторой реформы и др.
Основными числовыми характеристиками случайных величин, позволяющими описать данные в выборке, являются меры центральной (средней) тенденции и меры разброса относительно среднего. Они характеризуют распределение, которым описываются признаки, и могут способствовать выбору методов их анализа.
К мерам центральной тенденции относятся среднее арифметическое, медиана и мода. Среднее арифметическое является точечной оценкой математического ожидания E (x) (среднего значения в генеральной совокупности), медиана – значение показателя, меньше которого располагаются 50% наблюдений 35 , мода – наиболее распространенное значение, способ оценить среднее для категориальных переменных.
Дисперсия Var (x) – мера разброса относительно среднего. Она рассчитывается как усредненная сумма квадратов отклонений от среднего. Квадратный корень из дисперсии называется стандартным отклонением и тоже является мерой разброса, но имеет преимущество перед дисперсией поскольку измеряется в тех же самых единицах, что и сам признак, а дисперсия – в единицах в квадрате.
35
К примеру, при изучении душевого дохода адекватнее использовать медиану, потому что большая часть населения получает доходы ниже среднего, однако есть немногочисленные группы населения, получающие очень высокие доходы, что завышает значение среднего арифметического.
Определение типа шкалы и получение числовых, а также графических характеристик изучаемых признаков составляют подготовительный этап анализа данных. Исходя из полученной информации, требуется определить корректный метод для содержательной задачи, составляющей интерес исследователя: выявления взаимосвязи признаков, установления причинно-следственной связи, прогнозирования, классификации, снижения размерности и пр.
Задачу выявления связи между двумя номинальными признаками решает анализ таблиц сопряженности признаков, являющихся результатом их перекрестной классификации. Самая простая таблица сопряженности – это таблица 2x2, в которой строкам соответствуют два значения признака А, а столбцам – два значения признака В. В каждой ячейке таблицы указывается число объектов, для которого А и В принимают соответствующие строке и столбцу значения. Как правило, количество категорий признаков невелико, поэтому для включения в анализ непрерывного признака необходимо разбить его на категории. Например, можно создать возрастные группы или группы по доходу. Тогда исследователь сталкивается с необходимостью задания пороговых значений, которые зачастую во многом произвольны.