Для возможно более точного оценивания большого числа тестируемых (при массовых тестированиях), сопоставимости и достаточной дифференцируемости результатов тестирования в качестве системообразующего фактора может выступать время работы над тестом, от которого существенно зависит качество результатов. Оптимальное время тестирования определяется эмпирически (исходя из удобства тестирования и естественных возможностей непрерывной работы тестируемых) и указывается для каждого теста. При этом трудность теста определяется суммарной трудностью всех его заданий. Требования современного тестирования предусматривают, что задания не могут быть все одинаковой трудности, так как по определению педагогического теста они должны быть (в гомогенном тесте) нарастающей трудности. Испытуемые среднего уровня подготовленности должны ответить верно примерно на половину заданий теста, на задания самого высокого уровня трудности правильно должны ответить только самые подготовленные.
Долгое время в тестологии мерой трудности каждого задания была доля правильных ответов рjна j–e задание. В новых моделях вместе с долей правильных ответов pj составной частью новой единицы измерения стала величина qj = 1 – pj – доля неправильных ответов на j – е задание.
Мерой уровня трудности заданий в современной тестологии является логит трудности задания, определяемый натуральным логарифмом отношения доли невыполненных заданий к доле правильных ответов на данное задание ln qj/рj. Соответственно, введена и логарифмическая оценка логит уровня подготовленности i – го учащегося, определяемый как ln pj /qj [107]. Сопоставление логарифмических оценок уровня знаний каждого испытуемого с уровнем трудности каждого задания посредством их вычитания позволяет создавать программно–инструментальные средства индивидуализации обучения и контроля, осуществить переход к методам адаптивного тестирования.
Одной из важнейших составляющих современного теста являются его тестологические характеристики. Тестологические характеристики – это измерительные качества теста, которые появляются только в процессе использования его на апробационных выборках тестируемых. Создание так называемого качественного теста, обеспеченного соответствующими тестологическими характеристиками, – процесс сложный и длительный, связанный с выбором математической модели конструирования теста, наполнением ее заданиями, проведением апробационного тестирования, параметризацией, последовательным совершенствованием для достижения соответствия заданным целям и тестологическим свойствам методами последовательных итераций.
Важной характеристикой тестирования является различие тестовых баллов у разных испытуемых – вариация тестовых баллов. Отсутствие вариации свидетельствует либо о том, что все обладают одинаковыми знаниями, либо о несостоятельности теста в дифференцировке знаний испытуемых. Так, при традиционных экзаменах пятибалльная шкала снижает вариацию даже там, где она есть (например, на вступительных испытаниях сотни абитуриентов получают тройки, хотя качество знаний таких абитуриентов может сильно отличаться), в то время как тесты ее заметно повышают (на 100–балльной шкале вариация результатов достаточно высока). Удобной мерой вариации результатов тестирования является дисперсия. Это особенно важно для организации адаптивного компьютерного тестирования. Сопоставление в ло–гитах (на единой шкале переменной) уровня знаний испытуемого и трудности задания позволяет ЭВМ из любого множества заданий для любого числа испытуемых подбирать индивидуальные задания и соответственно оценивать результаты ответов. Эффективность этого метода оказала огромное влияние на развитие зарубежной и отечественной педагогической теории и практики.
Согласно теории педагогических измерений тесты могут быть качественными и давать достоверные результаты только в том случае, если они предварительно апробированы на типичных выборках испытуемых и показывают соответствие заложенным при разработке взаимосвязанным свойствам надежности и ва–лидности. В трудах теоретиков–тестологов валидность трактуется как многомерная характеристика теста, включающая сведения об области исследуемых явлений и репрезентативности тестовой методики по отношению к ней [93-95]. Валидность теста можно определить как совокупность характеристик, определяющих соответствие теста поставленной цели. Нередко процесс создания теста носит многоцелевой характер, поэтому часто стараются проверить валидность с разных позиций, основываясь на различных критериях целевой адекватности теста.
Надежность теста понимается как способность давать одни и те же результаты при его применении к одинаковым выборкам тестируемых и характеризуется устойчивостью результатов тестирования. Идея достижения требуемой точности педагогических измерений заданиями теста теоретически задается надежностью теста. Это вытекает из известного постулата о неизбежности погрешности любых измерений: имеряемая величина Х не равна истинному значению Т [1]. В практическом смысле надежность понимается как мера одинаковости, повторяемости и связанности двух измерений одного и того же качества одним и тем же тестом или его параллельными вариантами [219]. Выделяется несколько типов надежности:
• реестровая надежность, определяемая посредством повторного тестирования испытуемых с помощью одного и того же теста;
• надежность параллельных форм, которая определяется с помощью тестирования одной и той же группы испытуемых параллельными тестами;
• надежность частей теста – анализ устойчивости результатов отдельных блоков теста (в практике обычно для определения надежности прибегают к комбинированию различных типов).
Значение надежности наиболее просто рассчитывается по коэффициентам корреляции между результатами двукратного тестирования одного и того же контингента испытуемых по эквивалентным вариантам тестов. О надежности тестов судят по степени сохранения ранговых позиций испытуемых. На практике по ряду причин это используется редко. Иногда для определения надежности гомогенных тестов по коэффициенту корреляции используется метод расщепления, описанный и использованный в работах А. Анастази и С. Урбина [9], Ю.М. Неймана и В.А. Хлебникова [134], М.Б. Челышковой [199]. Для этого тест разделяют на две эквивалентные половины. Затем стандартным способом вычисляют коэффициент корреляции r ' между результатами тестирования по двум половинам теста. При этом получается значение корреляции только половины теста, для целого теста она получается из соотношения r = 2r '/(1 + r ' ).
Способность теста соответствовать поставленным задачам, т.е. пригодность тестовых результатов для определенной цели, задается валидностью. Валидность – это методологическая характеристика способности теста измерять то, для чего он был создан. Она зависит от качества заданий, их числа, степени полноты и глубины охвата содержания учебной дисциплины в заданиях теста; баланса и распределения заданий по трудности; метода отбора заданий из общего банка, от интерпретации результатов тестирования; организации сбора данных, отбора выборки испытуемых [1]. Как отмечает Э. Стоунс, "валидность – ахиллесова пята тестирования" [173]. В понятие валидности входит самая разнообразная информация о тесте, которая анализируется различными типами валидности:
• диагностической (конкурентной), отражающей способность теста дифференцировать испытуемых по изучаемому признаку; это возможность по результатам тестирования судить о структуре знаний, умений и навыков испытуемых;
• прогностической, определяющей "степень обоснованности и статистической надежности исследования измеряемого качества в будущем; возможность отбора учащихся по определенным признакам, например абитуриентов, способных успешно обучаться в вузе" [219].
Различают понятия валидности по "содержанию, критериаль–ности, конкурентности и т.д." [134].
Эмпирическая валидность – независимый показатель, в котором используются экспертные оценки и характеристики теста, данные специалистами (педагогами, учеными–экспертами, сотрудниками центра тестирования и др.).
Конструктивная валидность используется при сложности или невозможности подобрать адекватные критерии валидизации. При этом используется комплекс характеристик, свидетельствующих о теоретической обоснованности методики, соответствии полученных с помощью теста результатов теоретическим ожиданиям и закономерностям.
Содержательная валидность отображает комплекс сведений о репрезентативности тестовых заданий как отражении всех важнейших составляющих контролируемых знаний. Содержательная валидность зависит от качества и числа заданий, степени полноты и глубины охвата содержания учебной дисциплины в заданиях теста по темам. Важно также распределение заданий по трудности.
К указанным выше типам валидности в педагогической литературе В.С. Аванесов, В.П. Беспалько, И.П. Подласый и многие другие добавляют:
• функциональную валидность, определяющую соответствие задания уровню усвоения контролируемых знаний;
• критериальную валидность, связанную с направленностью теста на измерение знаний по тем или иным заранее определенным критериям, например соответствие контролируемых знаний образовательному стандарту. Количественной мерой критериальной валидности служат коэффициенты ранговой и бисериальной корреляции между показателями теста и критериальной мерой, задаваемой при конструировании теста.
Построение числовой системы, в которой отношения между различными объектами тестирования выражены свойствами числового ряда, называется шкалированием. Для шкалирования результатов тестирования важное значение имеет структура нормативной выборки, представляющей группу тестируемых, содержащую представителей всех наиболее значимых страт, реально отражающих те же пропорции, что и выборка испытуемых. Преобразование шкал на основе анализа статистических результатов нормативной выборки "позволяет повысить качество педагогических измерений и выставить каждому испытуемому тестовый балл вне зависимости от того, в какой группе и над каким вариантом теста он работал" [190]. Эта процедура в настоящее время находится на стадии совершенствования и вызывает достаточно много споров.
В практике массового тестирования в качестве нормативной используется генеральная выборка, включающая всех обучающихся, участвующих в тестировании по данной учебной дисциплине. В сертификатах тестирования помимо тестового балла может быть указан рейтинг учащегося, который определяет место (ранг) тестируемого среди всех участников. Это, например, дает возможность выпускнику оценить свои конкурентные (конкурсные) возможности. При систематическом тестовом контроле появляется возможность по среднему рейтингу обучающихся формировать рейтинг образовательного учреждения, по рейтингу абитуриентов – рейтинг вузов. Все это может обеспечить условия для открытости всей системы образования. При этом пользователями результатов тестирования могут быть не только обучающиеся, но и родители, учителя, руководители общеобразовательных учреждений, органы управления образованием всех уровней и др.
Ежегодный статистический отчет, составляемый по итогам массового тестирования учащихся общеобразовательных учреждений, содержит детальную информацию о всех тестируемых, статистические данные о результатах тестирования по любой выборке учащихся, по каждому образовательному учреждению, району, городу, региону, стране в целом, по всем дисциплинам с указанием среднего тестового балла, средних оценок по пятибалльной шкале, процентов учащихся, правильно выполнивших задания. Материалы статистического отчета по результатам тестирования предоставляют уникальную возможность для анализа учебных достижений при независимом стандартизированном контроле знаний учащихся и являются основой образовательной статистики [129-131, 192]. Само понятие образовательная статистика может быть раскрыто как совокупность статистических показателей подготовленности различных выборок учащихся по результатам массового независимого тестирования.
В статистических отчетах массового тестирования, как правило, приводится несколько показателей, характеризующих интегральную подготовленность учащихся: средний тестовый балл по совокупности всех предметов по России, по отдельным регионам, территориям и общеобразовательным учреждениям, по каждой дисциплине для разных выборок учащихся, по видам тестирования, а также указывается процент правильно выполненных заданий теста, систематизируются другие показатели.
Рассмотренная выше систематизация понятий современного тестирования позволяет перейти к рассмотрению вопросов методологии тестирования, практики конструирования и параметризации контрольно–оценочных материалов, описанию форм, методов и процедур тестового контроля, а также методов анализа результатов, полученных на основе мониторинга учебных достижений школьников. Методологию современного педагогического тестирования можно определить как учение об основных положениях, формах, методах, принципах научного исследования и организации практики педагогического контроля и оценки уровня подготовленности обучающихся. Принципы научной организации тестового контроля, выработанные на основе обобщения зарубежного и отечественного передового опыта, формулируются в виде свода правил, способствующих повышению эффективности тестирования.
3.3. Основы конструирования тестов как контрольных измерительных материалов
Попытки ученых преодолеть многочисленные недостатки классической теории тестов для повышения точности измерений и оптимизации процедур контроля за счет адаптации трудности теста к уровню подготовленности учащегося позволили развить IRT и визуализировать формальные характеристики тестовых заданий, другими словами, позволили увидеть, как работают задания методами графических построений. Благодаря использованию математического аппарата и итерационных процессов (уточнений при последовательных испытаниях) теория IRT позволяет перейти от оценки внешних признаков, выявляемых экзаменаторами (наблюдаемых результатов выполнения задания), к оценкам латентных (скрытых, внутренних) параметров подготовленности испытуемых, обусловливающих некие константы состояния обучаемых (подготовленности) на момент измерения их знаний [238, 242]. Особенностью педагогических измерений по теории IRT является специфическая объективность результатов, связанная с тем, что на оценку испытуемого не влияют оценки других тестируемых данной выборки. Это связано со свойствами инструментария, обусловленными соответствующим подбором тестовых заданий определенного уровня трудности, и использованием специальных процедур шкалирования и оценивания в соответствии с используемыми моделями.
Поисками таких моделей занимались многие зарубежные математики, среди которых особо следует отметить работы Д. Батесона и других (D. Bateson, C. Nikol, T. Achroeder) [228], Р. Берка (R. Berk) [229], А. Бинета и Т. Симона (A. Binet and T. Simon) [230], А. Бирнбаума (A. Birnbaum) [231], Б. Блума (B. Bloom) [232], Я. Кевиса (J. Keeves) [238], К. Лорда (K. Lord) [241 -244], Г. Раша (G. Rasch) [247 -249], Д. Вайса и Г. Кинсбери (D.J. Weiss, G.G. Kingsbury) [252]. Применение этих моделей в отечественной практике тестирования изложено в работах В.С. Аванесова [1], М.Б.Челышковой [195-200], Ю.М.Неймана и В.А.Хлебникова [134], других авторов.
Использование специальных моделей измерения, соединяющих латентные параметры испытуемых с наблюдаемыми результатами выполнения теста, позволяет устранить многие трудности. В рамках IRT оценки качества подготовленности испытуемых можно отождествлять с модифицированными результатами тестовых измерений. При этом, казалось бы, совсем разные понятия "качество" и "количество" не противопоставляются друг другу, а, по определению М.Б. Челышковой и Г.С. Ковалевой, "вкладываются один в другой как показатели интенсивности проявления качества" [199]. Это позволяет представить образовательный процесс в качественных показателях и своевременно корректировать его.
Для решения задач педагогического измерения плодотворным явилось определение знания как объективно и субъективно достаточного признака истинности или проявления логического суждения. При этом латентно–структурный анализ нацелен на выявление внутренних, скрытых качеств и факторов поведения (деятельности) испытуемого посредством математических моделей измерения и статистической обработки полученных результатов. IRT представляет некоторое структурное построение или математическую модель, позволяющую соединить между собой несколько латентных переменных. В соответствии с положениями латентно–структурного анализа оценки испытуемых учитывают уровень трудности используемых при тестировании заданий и выдаются в виде тестовых баллов, рассчитанных с помощью математических моделей. В зависимости от числа оцениваемых параметров тестируемых различают несколько видов математических моделей современных тестов: однопараметрическую, двух–параметрическую, трехпараметрическую и др. Качество тестов, конструируемых на основе этих моделей, значительно улучшается, задания подбираются таким образом, чтобы обеспечить возможность проявления испытуемыми не только знаний, умений и навыков, но и других характеристик, проверка которых может быть заложена в спецификациях тестов.
В IRT вводится представление о существовании взаимосвязи между наблюдаемыми результатами тестирования и латентными качествами испытуемых, такими как уровень учебных достижений по предмету на момент тестирования. В отличие от классической теории тестов, где индивидуальный балл тестируемого рассматривается как постоянное наблюдаемое число Xi, в IRT латентный параметр трактуется как некоторая переменная (латентная переменная), начальное значение которой получается непосредственно из эмпирических данных тестирования (например, первичный балл). При этом латентные параметры (уровень подготовленности испытуемого θi и уровень трудности задания βj) рассматриваются как результат взаимодействия двух множеств значений, порождающих наблюдаемые итоги выполнения теста. Элементами первого множества являются значения латентного параметра θi – уровня знаний N испытуемый: (i = 1, 2, ..., N). Второе множество образуют значения латентного параметра βi, соответствующего разной трудности заданий теста (j = 1, 2, ..., n). На практике всегда ставится задача оценить по ответам испытуемых значения параметров θ и β. Для ее решения выбирается вид соотношения между этими параметрами (математическая модель).
Оказалось, что эмпирически наблюдаемые результаты Xi и соответствующие им латентные значения уровня подготовленности испытуемых θi связаны нелинейно. Переменный характер измеряемой величины трудности задания βj также указывает на возможность последовательного приближения ее к объективным оценкам параметров при помощи итеративных методов в процессе апробации. Выбором математической модели установливается взаимосвязь между эмпирическими результатами тестирования и значениями латентных переменных: θ – уровень знаний испытуемых и β – уровень трудности задания.