Шрифт:
1) «достижения» при выполнении конкретных операций очень сильно зависят от того, как задается вопрос или как подается задание (так, например, число учеников, способных выполнить простое деление, существенно снижается, если вместо привычного «112:7=?» написать выражение «112/7 =?», не говоря уже о представлении задачи в форме реалистичной жизненной проблемы);
2) среди экзаменаторов и проверяющих часто нет согласия даже в том, следует ли отнести данный ответ к верхней или нижней половине шкалы оценок, не говоря уже о более тонком ранжировании;
3) отдельные экзаменаторы в зависимости от ситуации нередко выставляют разные баллы за одно и то же качество работы;
4) на экзаменах учащиеся нередко выполняют одно и то же задание по-разному в зависимости от ситуации.
Из этого Wolf делает вывод, что оцениваемые конструкты не дают оснований для сколько-нибудь обобщенных заключений и что надежность, устанавливаемая повторным тестированием, чрезвычайно низка, даже если тесты обладают высокой внутренней согласованностью. (При том, что индексы внутренней согласованности тестов обычно представляются в качестве приемлемого показателя ретестовой надежности.) Следовательно, эти тесты не только не измеряют никакой академической или интеллектуальной способности в собственном смысле этого слова, но не обладают достаточной надежностью и конструктной валид-ностью даже в качестве показателей различий между учениками по наличному уровню их знаний или умений. Дальнейшее повсеместное использование этих тестов для оценивания учеников ничем не оправдано. То же самое можно сказать и относительно оценки образовательных институтов, учебных программ и самих педагогов. Ошибочно полагать, что это обеспечивает потребителям возможность выбора услуг в сфере образования и контроля за их качеством и, в свою очередь, способствует улучшению этих услуг. Такая оценка не может быть полезной и при отборе лиц, подходящих для выполнения важных общественных функций.