Шрифт:
Глава 5 посвящена сравнению средних значений для параметрических данных. Глава включает в себя рассмотрение одновыборочного T-критерия, T-критерия для независимых выборок, Т-критерия для парных выборок, а также однофакторный дисперсионный анализ (ANOVA).
Глава 6 рассматривает процедуры сравнения средних значений, но для непараметрических данных. Глава включает в себя рассмотрение критерия Манна – Уитни, критерия Краскела – Уоллиса, критерия Вилкоксона, критерия Фридмана.
Глава 7 описывает методику двумерного анализа данных. Из главы читатель узнает, как анализировать таблицы сопряженности, а также как правильно применять коэффициенты связи для разных шкал. Для определения связи между номинальными данными в главе подробно рассматривается критерий Хи-квадрат, для количественных шкал – коэффициент корреляции Пирсона, для порядковых – коэффициенты корреляции Спирмена и Кендалла. А также глава содержит раздел о частных корреляциях.
Глава 8 рассматривает регрессионный анализ, который позволяет выявить связь между одной зависимой и одной или несколькими независимыми переменными. В отличие от коэффициентов корреляции регрессионный анализ позволяет выявить влияние независимых переменных на зависимую переменную.
В главе рассматриваются разные виды регрессионного анализа в зависимости от уровня измерения шкалы: простая и множественная регрессия (когда и независимые переменные, и зависимая переменная измерены в количественной шкале); линейная регрессия с фиктивными переменными для случаев, когда игрек количественный, а в качестве иксов есть необходимость ввести номинальные переменные; линейная регрессия с эффектами взаимодействия, когда исследователь предполагает, что характер связи переменных может быть неоднороден в зависимости от подгрупп; бинарная логистическая регрессия для ситуации, когда игрек может принимать только два значения, а иксы могут быть измерены по любой шкале; мультиномиальная регрессия – частный случай бинарной логистической регрессии, – когда игрек принимает три значения и более, а иксы измерены по любой шкале; порядковая регрессия, когда зависимая переменная (игрек) измерена в порядковой шкале, а иксы могут быть любыми.
Глава 9 посвящена обсуждению факторного анализа (ФА) и метода главных компонент (МГК). Приводится обсуждение различий метода ФА и МГК. Факторный анализ претендует на выявление некоторых латентных переменных, а метод главных компонент позволяет сократить размерность пространства. Таким образом, он может быть обоснованием создания индекса.
Глава 10 описывает методику проведения кластерного анализа, представляющего метод многомерной классификации данных, позволяющего находить группы похожих объектов в пространстве данных по заданным параметрам классификации. В главе также рассматривается метод классификации к-средних.
Глава 11 рассматривает метод деревьев решений (CHAID), который также относится к методам многомерной классификации. С помощью данного метода можно ответить на вопрос, какие из независимых переменных наиболее сильно связаны с зависимой переменной. В социологии данный метод часто применяется для построения социально-демографического портрета какой-либо из социальных групп. Метод очень нагляден, удобен в интерпретации и в использовании, поскольку позволяет осуществить применение любого вида шкал, а также он устойчив к выбросам, позволяет улавливать не только линейные, но и нелинейные связи.
Глава 12 описывает дискриминантный анализ. Данный метод многомерной классификации предполагает предсказание попадания объектов в определенный класс. Задача метода – узнать, отличаются ли друг от друга классы по заданным параметрам.
Перед прочтением данного учебного пособия рекомендуем повторить [1] базовые для социолога понятия, которые будут встречаться в тексте, такие как выборка, генеральная совокупность, статистическая гипотеза, доверительный интервал, ошибка первого и второго рода, нулевая и альтернативная гипотезы, статистическая значимость, нормальное распределение, мода, медиана, среднее значение и другие.
1
Например, по литературе: Пашкевич А. В. Теория вероятности и математическая статистика для социологов и менеджеров: Учебник для вузов / Под. ред. А. А. Макарова. Новое издание. – М.: МЦНМО, 2020. С 352.
Необходимо отметить, что при анализе данных в большинстве случаев мы имеем дело с выборками, а не с генеральной совокупностью. Практически никогда у нас нет в доступе генеральной совокупности. Поэтому за страницами данной книги останутся темы качества выборки, ее репрезентативности, правильного сбора данных, так как это темы для отдельного обсуждения.
Для исследовательских задач редко бывает необходимо получать результаты по конкретной нерепрезентативной выборке, обычно важно переносить результаты выборки на генеральную совокупность. Поэтому в учебном пособии большое внимание уделяется способам переноса данных с исследуемой выборки на генеральную совокупность, для этого осуществляется проверка статистических гипотез. Большинство методов анализа, которые мы будем обсуждать, предполагают генерализацию выводов (то есть статистическую проверку того, что вывод, полученный на выборке, которую мы используем, характерен и для генеральной совокупности).
Автор книги – Наталья Сергеевна Воронина – кандидат социологических наук, старший научный сотрудник Института социологии ФНИСЦ РАН, доцент Государственного университета гуманитарных наук (где преподает дисциплину «Практикум по анализу данных в социологии» с 2017 года), автор более 50 научных публикаций по социологии, участник многочисленных научных грантов РНФ, РФФИ. Наталья Сергеевна Воронина окончила школу с золотой медалью, с 2005 по 2010 год обучалась в ГАУГН (получен диплом с отличием, специальность «социолог, преподаватель социологии»), затем продолжила освоение количественных методов в социологии с помощью ряда курсов повышения квалификации (2017 год – «Количественный анализ социальных данных на основе SPSS и R» НИУ ВШЭ, 2017 год – «Методы многомерной классификации» НИУ ВШЭ, 2019 год – «Математические методы в психологии» СПбГУ, 2019 год – «Эксперт IBM SPSS Statistics» МГТУ имени Баумана).