Ефремова Надежда
Шрифт:
Процесс совершенствования тестов как контрольных измерительных материалов происходит непрерывно в целях оптимизации их структуры и упрощения процедур шкалирования. Оптимизация КИМов – это процесс максимального упрощения его структуры с опорой на тематическую логику учебного материала для реализации запланированных целей и получения необходимых статистических свойств теста. Такая процедура называется тестологической оптимизацией, она предусматривает:
• выявление оптимального числа частей и пропорций различных форм заданий в КИМах, адекватных целям тестирования;
• выявление оптимального числа заданий, определение планируемого распределения заданий по трудности и сопоставление планируемых оценок с эмпирическими данными;
• анализ расположения точек локализации заданий вдоль оси трудности;
• определение оптимальной длины каждой части КИМа, компьютерное моделирование теста запланированной надежности и дифференцирующей способности.
Путем подбора оптимального числа частей КИМа и пропорций различных по формам и трудности заданий могут быть сконструированы различные тесты. Для ЕГЭ по целевым критериям, как правило, планируются две части теста: упрощенная аттестационная, доступная для выполнения большинством выпускников, и усложненная абитуриентская часть теста, обеспечивающая высокую дифференциацию по уровням подготовленности.
К числу направлений совершенствования КИМ можно отнести:
• анализ эмпирических данных с целью оптимизации структуры КИМ и выбора адекватных моделей измерения и шкалирования;
• проведение исследований по стабилизации критериального балла;
• разработку методики анализа устойчивости шкалы;
• проведение сравнительных исследований методов выравнивания трудности вариантов КИМ на статистике результатов различных выборок;
• усиление связи шкалирования и оценивания с содержанием образования;
• выделение уровней учебных достижений для оценивания на пятибалльной шкале.
Последние требования тесно смыкаются с основными направлениями совершенствования процедур шкалирования результатов ЕГЭ:
• адекватность статистических характеристик эмпирических данных используемым моделям педагогического измерения для корректности процедур шкалирования и выравнивания;
• линейность преобразования первичных результатов в стобалльную шкалу и выравнивания данных по различным вариантам теста;
• прозрачность процедуры получения шкалированных баллов для пользователей (дети, родители, преподаватели и т.д.), убеждающая их в объективности и обоснованности результатов.
Каждый бланк ответов на задания в свободной форме проверяется двумя независимыми и специально подготовленными экспертами. В этой связи при шкалировании в качестве промежуточной используют ? –шкалу, не требующую корректной обработки нормального закона и позволяющую учитывать полито–мические данные части «С». Если оценки двух экспертов всех ответов (оцениваемых разным количеством баллов) на задания в свободной форме одного выпускника совпали, то полученные оценки считаются окончательными. В случае, если оценки двух экспертов отличаются незначительно, проводится построение компромиссной оценки, которая считается окончательной.
Существует параметрическая модель, в которой значимость оценок эксперта зависит от двух параметров. Первый характеризует склонность эксперта к завышению или занижению оценок по сравнению со всеми остальными экспертами, а второй выражает меру непредсказуемости выставления оценок. Параметры названы соответственно: лояльность и согласованность. Исходя из этих параметров строится оценка «веса» каждого эксперта: чем ближе к нулю лояльность эксперта и выше согласованность (ниже нестабильность), тем большим является «вес» данного эксперта. Для каждой дисщипшны задается положительное число S, характеризующее максимально допустимое суммарное отклонение оценок экспертов. Для каждого j – го задания в свободной форме задано число j , характеризующее максимально допустимое различие в оценках пары экспертов. Числа S и tj задаются разработчиками КИМов на основе экспертных оценок и экспериментальных исследований [17].
Расхождение оценок экспертов считается значительным, если имеет место хотя бы одно из следующих условий:
• сумма модулей расхождений оценок экспертов по всем заданиям в свободной форме превосходит число S ;
• расхождение оценок экспертов за j –e задание в свободной форме превосходит tj.
Методика построения компромиссных оценок основана на условиях:
• нет никакой априорной информации об экспертах;
• невозможно провести абсолютную экспертизу качества работы каждого эксперта;
• вся информация представляет собой набор работ, оцененных двумя, редко тремя экспертами.
В этом случае определение влияния экспертов на оценку проводится на основе анализа всевозможных парных сравнений с учетом следующих принципов:
• если эксперт серьезно завышает оценку в сравнении с другими экспертами либо серьезно занижает, то такая оценка учитывается меньше;
• если эксперт проявляет несогласованность с действиями других экспертов в достаточно большом числе работ, занижает оценку в сравнении с более строгими (менее лояльными) экспертами или завышает в сравнении с более мягкими (более лояльными), то его оценки также учитываются меньше;