Ефремова Надежда
Шрифт:
Согласно теории педагогических измерений тесты могут быть качественными и давать достоверные результаты только в том случае, если они предварительно апробированы на типичных выборках испытуемых и показывают соответствие заложенным при разработке взаимосвязанным свойствам надежности и ва–лидности. В трудах теоретиков–тестологов валидность трактуется как многомерная характеристика теста, включающая сведения об области исследуемых явлений и репрезентативности тестовой методики по отношению к ней [93—95]. Валидность теста можно определить как совокупность характеристик, определяющих соответствие теста поставленной цели. Нередко процесс создания теста носит многоцелевой характер, поэтому часто стараются проверить валидность с разных позиций, основываясь на различных критериях целевой адекватности теста.
Надежность теста понимается как способность давать одни и те же результаты при его применении к одинаковым выборкам тестируемых и характеризуется устойчивостью результатов тестирования. Идея достижения требуемой точности педагогических измерений заданиями теста теоретически задается надежностью теста. Это вытекает из известного постулата о неизбежности погрешности любых измерений: имеряемая величина Х не равна истинному значению Т [1]. В практическом смысле надежность понимается как мера одинаковости, повторяемости и связанности двух измерений одного и того же качества одним и тем же тестом или его параллельными вариантами [219]. Выделяется несколько типов надежности:
• реестровая надежность, определяемая посредством повторного тестирования испытуемых с помощью одного и того же теста;
• надежность параллельных форм, которая определяется с помощью тестирования одной и той же группы испытуемых параллельными тестами;
• надежность частей теста – анализ устойчивости результатов отдельных блоков теста (в практике обычно для определения надежности прибегают к комбинированию различных типов).
Значение надежности наиболее просто рассчитывается по коэффициентам корреляции между результатами двукратного тестирования одного и того же контингента испытуемых по эквивалентным вариантам тестов. О надежности тестов судят по степени сохранения ранговых позиций испытуемых. На практике по ряду причин это используется редко. Иногда для определения надежности гомогенных тестов по коэффициенту корреляции используется метод расщепления, описанный и использованный в работах А. Анастази и С. Урбина [9], Ю.М. Неймана и В.А. Хлебникова [134], М.Б. Челышковой [199]. Для этого тест разделяют на две эквивалентные половины. Затем стандартным способом вычисляют коэффициент корреляции r ' между результатами тестирования по двум половинам теста. При этом получается значение корреляции только половины теста, для целого теста она получается из соотношения r = 2r '/(1 + r ' ).
Способность теста соответствовать поставленным задачам, т.е. пригодность тестовых результатов для определенной цели, задается валидностью. Валидность – это методологическая характеристика способности теста измерять то, для чего он был создан. Она зависит от качества заданий, их числа, степени полноты и глубины охвата содержания учебной дисциплины в заданиях теста; баланса и распределения заданий по трудности; метода отбора заданий из общего банка, от интерпретации результатов тестирования; организации сбора данных, отбора выборки испытуемых [1]. Как отмечает Э. Стоунс, «валидность – ахиллесова пята тестирования» [173]. В понятие валидности входит самая разнообразная информация о тесте, которая анализируется различными типами валидности:
• диагностической (конкурентной), отражающей способность теста дифференцировать испытуемых по изучаемому признаку; это возможность по результатам тестирования судить о структуре знаний, умений и навыков испытуемых;
• прогностической, определяющей «степень обоснованности и статистической надежности исследования измеряемого качества в будущем; возможность отбора учащихся по определенным признакам, например абитуриентов, способных успешно обучаться в вузе» [219].
Различают понятия валидности по «содержанию, критериаль–ности, конкурентности и т.д.» [134].
Эмпирическая валидность – независимый показатель, в котором используются экспертные оценки и характеристики теста, данные специалистами (педагогами, учеными–экспертами, сотрудниками центра тестирования и др.).
Конструктивная валидность используется при сложности или невозможности подобрать адекватные критерии валидизации. При этом используется комплекс характеристик, свидетельствующих о теоретической обоснованности методики, соответствии полученных с помощью теста результатов теоретическим ожиданиям и закономерностям.
Содержательная валидность отображает комплекс сведений о репрезентативности тестовых заданий как отражении всех важнейших составляющих контролируемых знаний. Содержательная валидность зависит от качества и числа заданий, степени полноты и глубины охвата содержания учебной дисциплины в заданиях теста по темам. Важно также распределение заданий по трудности.
К указанным выше типам валидности в педагогической литературе В.С. Аванесов, В.П. Беспалько, И.П. Подласый и многие другие добавляют:
• функциональную валидность, определяющую соответствие задания уровню усвоения контролируемых знаний;
• критериальную валидность, связанную с направленностью теста на измерение знаний по тем или иным заранее определенным критериям, например соответствие контролируемых знаний образовательному стандарту. Количественной мерой критериальной валидности служат коэффициенты ранговой и бисериальной корреляции между показателями теста и критериальной мерой, задаваемой при конструировании теста.