Контроль качества обучения при аттестации: компетентностный подход - Виктор Звонников 12 стр.


Выводы

Процесс педагогических измерений состоит из совокупности операций, направленных на компоненты измерений и позволяющих получить количественные или качественные оценки оцениваемых характеристик.

В отличие от традиционных оценочных средств измерители являются объектом специального анализа, направленного на обеспечение необходимых характеристик для повышения надежности и валидности результатов измерений. Особенно важно такое обоснование качества измерителей при итоговом контроле, результаты которого связаны с принятием важных административных решений, например, при аттестации выпускников или оценке эффективности деятельности учебных заведений.

При аттестации объектом измерения являются знания, умения навыки и компетенции, нередко называемые обобщающим термином "учебные достижения", структура и уровень сформированности которых сравнивают с требованиями ФГОС.

Надежность, валидность и размерность – три взаимосвязанные характеристики качества результатов измерений. Задание является одномерным, если оно измеряет одну и только одну переменную. Размерность задания равна числу переменных, которые оно измеряет. Анализ размерности результатов измерения, основанный на исследовательском и конфирматорном факторном анализе необходим при разработке оценочных средств в рамках компетентностного подхода к трактовке качества результатов образования.

При разработке тестов и переходе к шкалированным показателям испытуемых желательно пользоваться методами современной теории тестов (IRT), позволяющей преобразовать сырые баллы студентов в интервальную шкалу, единую для оценок параметров испытуемых и трудности заданий теста.

Классическая теория тестов и рекомендованные в ее рамках линейные преобразования сырых баллов повышают сопоставимость результатов студентов, но не меняют природу порядковой шкалы наблюдаемых результатов выполнения теста. Стандартизованные тесты, разработанные на основе классической теории, не позволяют перевести результаты испытуемых в интервальную шкалу.

Практические задания и вопросы для обсуждения

1. Какие компоненты педагогических измерений вы знаете?

2. Чем результаты оценивания качества подготовленности студентов, полученные на основе педагогических измерений, отличаются от результатов традиционных экзаменов?

3. Составьте сравнительную характеристику инновационных измерителей на основе анализа их возможностей для оценивания творческих аспектов подготовленности студентов.

4. Какие измерители наиболее адекватны по своим характеристикам задаче отслеживания динамики изменений качества подготовленности студентов?

5. Какие измерители необходимы для системы мониторинга качества образования внутри учебного заведения?

6. Эффективно ли использовать диагностические тесты без корректирующих тестов?

7. Следует ли подвергать стандартизации тесты для текущего контроля?

8. Можно ли использовать тесты, стандартизованные в одном вузе, с теми же нормами для всех вузов по данному направлению подготовки?

3. Основные подходы к разработке измерителей

3.1. Общие подходы к интерпретации результатов педагогических измерений

При педагогических измерениях интерпретация баллов студентов может носить различный характер в зависимости от того, каким способом сравниваются их результаты. В одном случае проводится сопоставление баллов тестируемых с результатами определенной группы – выборки студентов, выполнявших тот же самый тест, – для определения места каждого балла по отношению к среднему результату в группе (нормативно-ориентированный подход). В другом случае результаты испытуемых интерпретируются по отношению к содержательной области, включенной в тест и снабженной определенными критериями выполнения (критериально-ориентированный подход) [22, 28, 33, 43]. Хотя оба подхода дают информацию о подготовленности студентов, они отличаются по характеру получаемых данных. В нормативно-ориентированном подходе определяется место результата каждого студента по отношению к результатам других студентов. В критериально-ориентированном подходе информация, полученная при тестировании, позволяет установить освоенные разделы учебного курса или виды учебной деятельности, выявить проблемы и пробелы в усвоении.

Соответственно двум подходам к интерпретации результатов тестирования выстраиваются и два подхода к созданию педагогических тестов. Оба они перспективны и важны, имеют свою сферу применения, преимущества и недостатки. Выбор подхода к интерпретации результатов тестирования необходимо сделать в самом начале – в момент постановки цели создания теста. В противном случае можно оказаться в ситуации, когда результаты тестирования окажутся недостаточно информативными и непригодными для принятия обоснованных управленческих решений в рамках обоих подходов из-за неопределенности при интерпретации результатов выполнения теста. С первого взгляда оба подхода – нормативный и критериальный – непротиворечивы, поэтому у многих педагогов возникает впечатление, что можно делать тесты, допускающие сразу обе интерпретации результатов. Для специалистов по педагогическим измерениям совмещение нормативно-ориентированного и критериально-ориентированного подходов представляется недопустимым в силу целого ряда различий в конструировании тестов, поэтому в соответствии с двумя подходами к интерпретации результатов тестирования выделяют нормативно-ориентированные и критериально-ориентированные тесты.

3.2. Нормативно-ориентированный подход и стандартизация тестов

Нормативно-ориентированные тесты разрабатываются для сравнения обучаемых по уровню учебных достижений, поэтому основная цель нормативно-ориентированного подхода – дифференциация испытуемых по результатам выполнения теста. При интерпретации результатов студентов относительная позиция испытуемого может оцениваться по-разному, поскольку он будет выглядеть лучше на фоне более слабой, чем более сильной группы. Например, можно высоко оценить знания студента, выполнившего правильно всего 30 заданий в тесте из 60 в том случае, если 70–80% остальных студентов в группе сделали меньшее число заданий. Тот же самый результат обучаемого в сильной группе будет отнесен к категории довольно низких, если только 10–20% испытуемых сделали правильно 30 заданий, а все остальные значительно превысили этот результат. Для корректной интерпретации результатов тестирования балл каждого студента сравнивается с нормами выполнения теста.

Нормы – это совокупность показателей, отражающая результаты выполнения теста четко определенной выборкой испытуемых – релевантной нормативной группой, репрезентативно представляющей генеральную совокупность тестируемых студентов [1, 21, 28]. Нормы нельзя придумать или задать априорно, они устанавливаются в соответствии с эмпирическими данными по тесту. К ним обычно относят среднее значение тестовых баллов и показатель разброса (вариативности) вокруг среднего значения всех остальных баллов, полученных представительной выборкой тестируемых студентов. Имея нормы, можно установить положение каждого результата по отношению к среднему значению тестовых баллов, посмотреть, на сколько результат испытуемого выше или ниже среднего и как располагаются результаты остальных студентов вокруг среднего балла по тесту. Таким образом, соотнесение первичного результата испытуемого с нормами теста позволяет определить его место в выборке, использованной для подсчета.

Процесс определения норм называется стандартизацией теста. Этот процесс всегда осуществляется на репрезентативной выборке испытуемых, формирование которой обязательно при определении норм теста. Тестовых норм, пригодных для интерпретации результатов всех студентов по любым тестам, не существует вообще. Область применимости любой нормы ограничивается данным тестом и конкретной совокупностью испытуемых, поэтому нормы не абсолютны и не постоянны. Они отражают результаты выборки стандартизации на момент создания теста и подлежат систематическому обновлению и перепроверке.

Нормы обычно устанавливают в ситуации массового тестирования, например, при аттестации студентов или выпускников. В текущем контроле нормы выполнения теста, конечно, не определяются. В этом случае обычно используют не преобразованные (сырые) результаты выполнения тестов, подсчитанные путем суммирования оценок по отдельным заданиям, в том числе и с весовыми коэффициентами.

Руководству факультета нередко интересно узнать, по какому предмету отстает тот или иной студент. Для этого приходится сравнивать результаты студентов по предметным тестам. Подобное сравнение относительных позиций студента в тестах по разным предметам возможно в том случае, если они стандартизованы на одной и той же выборке испытуемых и представлены в одинаковых шкалах с общими средним значением и стандартным отклонением. В противном случае результаты сравнения тестовых баллов студента по отдельным предметам можно неверно интерпретировать из-за несопоставимости тестовых норм.

В педагогических измерениях термин "стандартизация" обычно используется гораздо чаще не только применительно к процессу установления норм выполнения теста. В расширенном понимании стандартизация предполагает единообразие всей процедуры выполнения теста. Для стандартизации, помимо норм, разработчик должен дать точные указания по форме предъявления теста, оптимальному времени его выполнения, составу выборки стандартизации, устные инструкции и ряд других деталей, влияющих на результаты выполнения теста.

К нормам предъявляют ряд требований:

• нормы должны быть дифференцированными. Например, тесты для аттестации студентов вузов, реализующих одинаковые направления подготовки, необходимо стандартизировать на собственных выборках в тех случаях, когда результаты аттестации используются только внутри самого вуза. В случае, если речь идет об аттестации студентов при комплексной проверке деятельности учебных заведений, стандартизация тестов должна проводиться на репрезентативной выборке, состоящей из студентов разных вузов России и отражающей пропорции генеральной совокупности всех студентов, получающих подготовку по данному направлению;

• нормы должны отражать реальный контингент и актуальные требования к качеству учебных достижений, вытекающие из современной ситуации в образовании;

• нормы должны быть репрезентативными, поэтому они всегда устанавливаются эмпирически в соответствии с результатами тестирования выборки стандартизации, обеспечивающей несмещенные оценки.

Норма – относительное понятие, тесно связанное с качеством выборки, использованной для стандартизации. Выборка должна точно отражать категорию (или несколько категорий) лиц, для которых предназначен тест, а также быть достаточно большой и сбалансированной для обеспечения столь малой стандартной погрешности, чтобы ею можно было пренебречь в процессе стандартизации теста. Таким образом, при формировании выборки стандартизации необходимо учитывать две переменные: объем и представительность (репрезентативность), обеспечивающие в совокупности высокую точность при оценивании норм выполнения теста. Если выборка не репрезентативна, то нормы неадекватно отражают характеристики подготовленности генеральной совокупности испытуемых. В этом случае результаты тестирования выборочной совокупности студентов не подлежат генерализации (распространению на всю генеральную совокупность), а сами нормы являются недостоверными (неточными), поэтому их нельзя использовать при интерпретации результатов выполнения тестов.

Если принимать во внимание только первую переменную – объем выборки, то для получения приемлемой точности оценивания норм вполне достаточно провести тестирование 200–500 испытуемых. Гораздо более важной характеристикой выборки, не зависящей от ее размера, является репрезентативность (представительность). В практической работе вполне допустимо ограничиться выборкой из 300, а иногда даже 200 испытуемых, поскольку маленькая, но репрезентативная нормативная выборка предпочтительнее, чем большая, но неравномерно представленная.

Для обеспечения равномерности представления различных специфических составляющих популяции испытуемых используют специальный процесс – стратификацию (расслоение выборки на страты, размеры которых должны быть пропорциональны размерам соответствующих популяций в генеральной совокупности). Обычно в качестве оснований для стратификации выделяют факторы, наиболее тесно связанные с переменной измерения и воспроизводящие реальную структуру генеральной совокупности по ряду признаков (возрастных, гендерных, психологических, социальных и др.). Например, к числу таких факторов для группы вузов можно отнести программу обучения, используемые учебники, специфику технологий обучения, социальное положение родителей студентов, регион, где расположен вуз и т.д. Внутри одного учебного заведения можно выделить формы обучения, методы обучения, кадровый состав преподавателей и т.д.

Для формирования выборки определенного типа чаще всего используют вероятностные методы, отличающиеся от других, невероятностных методов способами извлечения объектов из генеральной совокупности и дающие по сравнению с последними более высокий уровень репрезентативности выборочных совокупностей [21]. Среди распространенных типов выборок можно выделить простую случайную, элементы которой отбираются из генеральной совокупности случайно, т.е. с равной вероятностью без выделения оснований по стратификации. В том случае, когда фиксируется определенный шаг выборки при отборе ее элементов, случайная выборка превращается в систематическую.

Стратифицированный тип выборки является наиболее предпочтительным с точки зрения обеспечения ее высокой репрезентативности. При ее формировании каждый элемент генеральной совокупности, включенный в одну внутреннегомогенную страту, отбирается методом простой случайной выборки, а процесс стратификации производится способом, описанным выше. Реже встречаются кластерные и мультистадийные выборки, требующие предварительного формирования кластерных групп элементов в тех случаях, когда генеральная совокупность неоднородна.

Определение оптимального типа выборки производится на основе анализа ряда факторов, к числу которых относятся цель измерения, вид измерителя и его содержание, особенности генеральной совокупности, специфика переменных измерения, планируемая надежность результатов, предполагаемые выводы по результатам педагогических измерений.

В целом можно сформулировать общие правила получения репрезентативной выборки стандартизации:

• выборка должна быть стратифицирована на подгруппы по наиболее важным переменным, обычно отражающим не более четырех уровней стратификации;

• в каждой подгруппе необходимо выровнять число испытуемых, установив в качестве минимального числа не менее 100 испытуемых в одной подгруппе.

С учетом всех возможных сочетаний факторов, обычно выбираемых при массовом тестировании для стратификации, минимальный объем национальной выборки стандартизации во многих странах достигает 12–15 тыс. обучаемых. Для уменьшения этого объема минимизируют число оснований при делении на подгруппы – количество страт, – снижая тем самым затраты на стандартизацию национальных тестов.

Наличие многих факторов стратификации, необходимость анализа пропорций генеральной совокупности испытуемых, проведение апробационного тестирования для определения норм делают работу по стандартизации тестов достаточно дорогостоящей и трудоемкой. Современный уровень развития тестовых технологий позволяет моделировать тесты с прогнозируемыми нормами с помощью теории IRT, банка калиброванных тестовых заданий и специальных программ для компьютерной генерации вариантов теста. Поэтому в настоящее время некоторые зарубежные тестовые службы (например, ETS), обеспечивающие массовое тестирование в стране, занимаются созданием банков заданий с устойчивыми характеристиками для различных уровней образования. Чтобы получить такой банк, вузу необходима апробация тестов на репрезентативных выборках, поэтому проблема создания выборок стандартизации не снимается, а, наоборот, приобретает особенное значение.

К стандартизованному тесту необходимо приложить:

• нормы выполнения теста, которые определяются на выборке стандартизации;

• объем выборки стандартизации, основания для ее стратификации и временной период ее использования;

• необработанные показатели выполнения теста для каждой выборки стандартизации.

Последняя информация необходима, поскольку необработанные результаты выполнения тестов могут поддаваться адекватной интерпретации лишь при сравнении с показателями выборки стандартизации. Пользователям тестов следует также помнить о том, что сопоставление норм по различным тестам возможно лишь тогда, когда есть основания для утверждения об адекватности выборок стандартизации.

3.3. Критериально-ориентированный подход

При критериально-ориентированном подходе в педагогических измерениях результаты испытуемых интерпретируются по отношению к содержательной области или требованиям, установленным к учебным достижениям. Балл каждого студента подсчитывается путем перевода в проценты доли правильно выполненных заданий по отношению к общему числу заданий теста (для дихотомических оценок (1 или 0) по отдельным заданиям) либо отношения суммарного балла по правильно выполненным заданиям к общему числу баллов по всем заданиям теста (для политомических оценок по отдельным заданиям). Полученный для каждого студента процент сравнивается со стандартами выполнения – критериями, установленными экспертным путем и прошедшими эмпирическую валидизацию в процессе конструирования теста [1, 22, 28, 33].

Таким образом, при критериально-ориентированном подходе создаются тесты для сопоставления учебных достижений каждого студента с планируемым к усвоению объемом знаний, умений или навыков. В качестве интерпретационной системы отсчета используется конкретная область содержания, а не та или иная выборка студентов. Упор в интерпретации результатов делается на то, что может выполнить обучаемый и что он знает, а не на то, как он выглядит на фоне других студентов, выполнявших тест.

За рубежом типы критериально-ориентированных тестов имеют определенную классификацию: domain-referenced tests – тесты, ориентированные на содержательную область, результаты по которым, как правило, выражаются в процентах освоенного содержания; mastery, non-mastery tests – тесты для отбора испытуемых, достигших определенной ступени мастерства, результаты студентов в которых обычно делятся на две группы – превысившие критерий и не достигшие критерия выполнения.

В России такая классификация пока не сложилась, хотя она, несомненно, нужна, поскольку эти типы критериально-ориентированных тестов имеют разные технологии разработки.

С помощью критериально-ориентированных тестов благодаря содержательной интерпретации результатов тестирования можно:

• выявить освоенные и неосвоенные знания, умения, навыки и компетенции, построить индивидуальную образовательную траекторию каждого студента (domain-referenced tests) и повысить индивидуализацию учебного процесса;

• ранжировать тестируемых по проценту выполнения и построить рейтинговые шкалы (domain-referenced tests);

• разбить испытуемых на две группы с помощью одного критериального балла (mastery, non-mastery tests);

Назад Дальше