• в качестве меры рассеяния применяют квантили;
• в качестве меры связи двух признаков используют ранговый коэффициент корреляции.
Интервальная шкала – количественная. Она используется для упорядочения объектов, свойства которых удовлетворяют отношениям эквивалентности, порядка и аддитивности. В ней определено расстояние между объектами и предусмотрена общая для всех объектов единица измерения, а началом отсчета является условно выбранная нулевая точка. Благодаря существованию единицы измерения, в интервальной шкале возможны все арифметические действия над числами, кроме операции деления, в силу отсутствия абсолютного нуля. В ней также допустимы почти все статистические операции, кроме тех, которые предполагают знание "истинно" нулевой точки.
В интервальной шкале достигается корректная сравнимость результатов педагогических измерений. Хотя она лишена недостатков номинальной и порядковой шкал, в ней остается неизвестной естественная точка отсчета – абсолютный нуль. Поэтому при интерпретации результатов тестирования с помощью интервальной шкалы нуль верных ответов не означает полного отсутствия подготовленности обучаемых.
Для построения интервальной шкалы в педагогических измерениях необходимо обращение к современной теории тестов IRT. Ее возможности, связанные с инвариантностью оценок параметров подготовленности обучаемых, и трудности заданий теста в сочетании со специальными преобразованиями эмпирических результатов тестирования позволяют ввести единицу измерения и перевести баллы испытуемых из порядковой шкалы в интервальную [28, 35, 44].
Шкала отношений отображает свойства объектов, удовлетворяющие отношениям эквивалентности, порядка, аддитивности и пропорциональности. Последнее свойство появляется благодаря наличию в шкале отношений однозначного естественно определенного критерия нулевого проявления измеряемого свойства – абсолютного нуля. Другими словами можно сказать, что шкала отношений является интервальной с естественным, а не с условным началом отсчета, расширяющим возможности преобразований чисел, приписанных объектам. По сравнению со всеми ранее рассмотренными шкалами последняя (шкала отношений) обеспечивает самый высокий уровень измерений. В ней можно выполнять все арифметические и статистические операции, в том числе интерпретировать отношение чисел, приписываемых различным объектам.
Использование шкалы отношений в образовании невозможно в силу отсутствия абсолютного нуля, поэтому на сегодняшний день ее удалось реализовать только в рамках физических измерений. Общая типология уровней измерения приведена на рис. 2.8.
Рис. 2.8. Типология уровней измерения и соответствующих шкал
Помимо четырех уровней измерений, принятых согласно классификации Стивенса, в отечественной литературе по проблемам измерений иногда выделяют пятый уровень и вводят так называемые абсолютные шкалы. Под ними понимают шкалы отношений, обладающие не только естественно выбранным абсолютным нулем, но и естественно определенными единицами измерения, не зависящими от условных соглашений. Такие шкалы не встречаются в образовании, они характерны для оценивания относительных величин в физических измерениях.
Поскольку количественные шкалы предпочтительнее качественных в тех случаях, когда результаты педагогического измерения используются для принятия административно-управленческих решений, то возникает вопрос о необходимых условиях для получения данных на количественном уровне измерений. Такие условия можно разбить на две части, одна из которых относится к самому измерителю, а другая – к методам обработки данных при их шкалировании.
Не нуждается в доказательстве тот факт, что традиционные средства и методы контроля, включающие экзамены, контрольные работы, устные опросы и другое, позволяют получать баллы испытуемых только на качественном уровне в номинальной либо порядковой шкале. Точка зрения на возможности тестов для построения количественных шкал менялась по мере развития теории педагогических измерений и совершенствования технологии разработки тестов. Вначале, когда тесты только появились в образовании, педагогам казалось, что (не понятно, кто они: педагоги или тесты, нельзя удалять) они обеспечивают оценки в количественной шкале. Такое впечатление создавалось в силу того, что при тестировании получались баллы учащихся, подсчитанные на основе количества правильно выполненных заданий теста. Впоследствии возникли серьезные аргументы, подвергающие сомнению количественный характер результатов выполнения тестов.
Действительно, для тестовых баллов нельзя ввести единицу измерения в связи с зависимостью баллов от различной трудности заданий теста. Исключением мог бы стать тот случай, когда в тесте используются задания одинаковой трудности, но это нереально, поскольку не согласуется ни с основными положениями теории педагогических измерений, ни с потребностями учебного процесса. В любой оценке трудности задания всегда присутствуют ошибочные компоненты, поэтому с точки зрения теории измерений невозможно выбрать одинаково трудные задания в тесте. Да они и не нужны, поскольку все студенты отличаются по своей подготовленности, и для оценивания их учебных достижений необходимы различные по трудности задания, адекватные возможностям обучаемых. К тому же специфика содержания отдельных элементов учебного материала никогда не позволит сделать одинаковые по трудности контролирующие задания в любой форме, в том числе и в форме теста.
Таким образом, по мере развития теории и практики тестирования пришло осознание того, что результаты тестирования обучаемых позволяют установить отношение равенства или отношение "больше-меньше", а разность наблюдаемых (сырых) тестовых баллов при интерпретации отличий в подготовленности студентов не имеет никакого смысла.
Прогресс, достигнутый в 80-е гг. XX в. в методологии педагогических измерений и завершившийся созданием теории IRT, привел к новым возможностям шкалирования результатов тестирования [38]. В отличие от классической теории тестов, в рамках которой можно повысить сопоставимость сырых баллов путем их преобразования без изменения природы порядковой шкалы, IRT позволяет перевести наблюдаемые баллы обучаемых из порядковой в количественную шкалу интервального характера. Такое преобразование осуществляется путем введения специальной единицы измерения – логита – и получения оценок подготовленности студентов, не зависящих от трудности заданий теста.
Таким образом, для перехода на количественный уровень измерений необходимо использовать стандартизованные тесты с выбором ответов, автоматизированные формы проверки и обработки данных, а разработку тестов и шкалирование результатов их выполнения вести только на основе теории IRT. Несмотря на снижение объективности, возникающее за счет привлечения экспертов в тех случаях, когда в стандартизованном тесте есть задания со свободно конструируемым ответом, шкалу тестовых баллов, построенную на основе теории IRT по таким заданиям, также относят к количественным измерениям, что не вполне корректно. Для качественных измерений разрабатывают портфолио и анкеты, проводят интервью, собеседования, устные опросы и экзамены в традиционной форме. Иногда при аккредитации учебных заведений привлекается анализ документов, отражающих ход и результаты учебного процесса.
В целом можно отметить, что количественный и качественный уровни измерений имеют существенные отличия по проявлению совокупности свойств оцениваемых характеристик объектов, способам измерения, формам представления результатов, группам допустимых преобразований и операций с различными математическими и статистическими величинами, характеризующими измеряемые признаки. Количественные оценки обычно представляют в виде чисел на шкале, чтобы дифференцировать различные величины переменной. По результатам качественного измерения для оценочных характеристик выбирают дескрипторы в виде слов или символов, хотя нередко в образовании роль символов для удобства размещения на шкале отводят условно выбираемым числам.
В связи с введением компетентностного подхода роль качественных оценок, несомненно, будет расти, поскольку оценивание компетенции может проводиться на качественном уровне измерений. На деле приоритет качественного уровня вовсе не означает отказа от тестов при оценивании профессиональных компетенций выпускников вузов. В рамках компетентностного подхода количественные оценки должны дополняться многоаспектными качественными оценками и получать развернутую качественную интерпретацию по отношению к задачам профессиональной деятельности выпускников. Для повышения объективности оценок при построении качественных шкал необходимо использовать оценочные средства, разработка которых осуществлялась с опорой на теорию педагогических измерений. Применение таких измерителей должно обеспечивать высокую надежность и валидность оценок.
2.6. Бипарадигмальная методология
Разграничение количественного и качественного подходов проявлялось в методологии в течение нескольких десятилетий конца ХХ в., но протекало по-разному в зависимости от уровня развития измерений в социальных науках. В странах, где широко использовавших тесты в психологии и в образовании, сложились две противостоящие методологии: качественная и количественная, объединенные одной общей функцией – служить ориентиром в научной организации процесса измерений. На качественном уровне для методологических знаний характерна большая описательность. В количественном методологическом подходе преобладают нормативные предписания, находящие свое практическое отражение в нормах выполнения тестов, а для измерений используются стандартизованные шкалы.
В частности, в США общий ход развития методологии измерений протекал в условиях острых дебатов между сторонниками количественного и качественного подходов в измерениях (Дейт, Гейдж, Губэ и Линкольн, Хаус, Росс), которые вплоть до начала XXI в. не находили компромиссных точек зрения и утверждали приоритет только своего подхода в рамках одной из методологий. Аналогичные процессы протекали в психологии, где в 70–80-е гг. шли длительные методологические споры между такими учеными, как Кронбах, Кук и Кемпбелл, которые отстаивали противоположные точки зрения на преимущества количественных или качественных подходов к решению методологических проблем валидности измерений, разработке инструментария и интерпретации результатов измерений в практике. По сути, ни одно из направлений в социальных науках не избежало проявлений подобных споров и противостояния парадигм в оценочных процедурах [10, 38].
В основе одного методологического подхода, получившего за рубежом название позитивистской парадигмы, лежали количественные методы измерения, в то время как противоположная конструктивистская парадигма была основана на качественных методах, поэтому споры между этими двумя парадигмами часто называли качественно-количественными дебатами. В их развитии выделяют несколько этапов, не имеющих четких границ из-за некоторых переходных периодов. Первый из этапов дебатов, характеризующийся приоритетом количественных методов, протекал с 20-х до 80-х гг. ХХ в., когда в педагогических измерениях господствовали тесты с выбором ответа, которые рассматривались как единственный достоверный источник данных о результатах образовательного процесса и не нуждались в привлечении экспертов при оценивании результатов выполнения.
В 70–80-х гг. ХХ в. стали появляться многочисленные критические публикации, в которых утверждалось, что принципы позитивизма и количественная методология, утверждавшая эту парадигму, были дискредитированы (Линкольн и Губэ). Причинами критики позитивизма послужил нарастающий интерес к формированию творческих аспектов подготовленности обучаемых, развитию когнитивных навыков и коммуникативных компетенций, которые невозможно было оценить с помощью традиционных тестов с выбором ответов. В этой связи за рубежом началось возрождение качественных методов в педагогических измерениях и постепенный переход к качественной методологии, базирующейся на принципах конструктивизма (Смис и Хэсхусис).
Однако вопреки преобладающему конструктивизму, нарастающему противостоянию методологий и утверждениям о несовместимости количественных и качественных подходов еще в 60-е гг. появились зачатки новой методологии, которая совмещала их и стала доминирующей в 90-е гг. ХХ в. Наиболее серьезные попытки примирения парадигм в образовании, наметившиеся к концу ХХ в., принадлежат Хоуэ, Рейхардт, Раллис. Они выдвинули тезис совместимости количественной и качественной методологий, основанный на другой парадигме, которую ученые позже назвали прагматизмом. В наше время уже никто не сомневается в истинности прагматизма, а дебаты ученых о парадигмах рассматривают как фрагмент истории измерений в социальных науках. Все современно мыслящие исследователи обращаются к прагматической методологии педагогических измерений, в которой содержатся элементы и количественных, и качественных подходов (Брюэр и Хантер, Пэтон, Грин, Караселли и Грэхэм).
Движение от позитивизма к прагматизму в методологии педагогических измерений имеет свои характерные черты. Оно сопровождается переходом от монометода и единственного средства оценивания, в качестве которого выступают тесты, к использованию совокупности методов и средств измерения. Вместо единственного источника информации – результатов стандартизованного тестирования – появляются многочисленные источники данных, строящиеся на сочетании различных средств измерения. Нередко при качественном оценивании привлекается дополнительная информация о предыстории развития студента, результаты его анкетирования, краткие истории из его жизни и другие биографические материалы. Исследователи, идущие по пути количественных методов, применяют математические модели, статистические таблицы и графики, но стараются подвергать полученные числа последующей качественной интерпретации для анализа и использования в управлении качеством образования.
В нашей стране смена господствующих парадигм в методологии измерений шла несколько иным путем, чем в зарубежных странах, обладающих развитыми национальными системами тестирования. Из-за запрета на тестовые методики весь период до начала 90-х гг. в отечественном образовании преобладала монометодология, базирующаяся на качественных подходах и ориентированная на традиционные оценочные средства, разрабатываемые и используемые педагогами вне аппарата теории измерений в образовании. Однако вопреки трудностям становления тестовых технологий с начала 90-х гг. в нашей стране стали появляться отдельные исследования, направленные на разработку методологического обеспечения тестирования и привносившие элементы количественных подходов в традиционную оценку знаний обучаемых.
Расширение сферы применения тестов в России пришлось на период, когда в содержании контроля во всем мире стала приоритетной проверка творческих умений, а вместо заданий на воспроизведение фактов и простейших алгоритмов, предполагающих только одноуровневую деятельность, во многих странах в тесты стали включать задания для оценки разнообразных интеллектуальных и практических умений.
Наметилось смещение акцентов с преимущественной оценки результатов обучения на компоненты процесса получения результата, с пассивного ответа на заданный вопрос на активное конструирование содержания ответа, с оценки отдельных, изолированных умений на интегрированную и междисциплинарную оценку уровня сформированности компетенций. Эти тенденции нашли свое отражение в создании новых форм тестовых заданий и инновационных измерителей.
Наряду с заданиями с выбором ответов, стали использоваться формы, позволяющие экзаменуемым самостоятельно конструировать ответ и приводить его в произвольном виде в специальном бланке. Для проверки результатов выполнения таких заданий приходится привлекать экспертов, оценочные суждения которых проводятся на качественном уровне. Вместе с тем наличие заданий с выбором предполагает количественный уровень измерений. Таким образом, современная практика тестирования в России основывается на новой методологии измерений, позволяющей сочетать данные на количественном и качественном уровнях измерений, учитывая в том числе и данные анкетирования или результаты собеседования, например, при приеме в вузы, аттестации школ, педагогических кадров и т.д.
Для отражения идеи совмещения количественных и качественных уровней измерения в наши дни отечественные ученые ввели представление о бипарадигмальной методологии, под которой следует понимать систему принципов, способов функционирования и форм научной организации теоретической и практической деятельности в условиях сочетания количественных и качественных уровней измерений, а также учение об этой системе, закладывающее научный базис интеграции результатов измерений различных уровней при их шкалировании и использования в образовании [10].
Второе новое понятие, возникшее в научных трудах наших современников, – бипарадигмальные модели измерения, которые включают совокупность предположений, структурных связей, методов, методик, требований, показателей качества, определяющих функционирование и развитие всех компонентов процесса и средств измерения в условиях сочетания количественных и качественных подходов к измерению [Там же]. Понятие "модель измерения" необходимо дифференцировать от другого, близкого по смыслу – "метод измерения", отличающегося от первого по степени обобщенности и полноты включения компонентов измерения. Модель измерения представляет собой общую структуру, охватывающую не только количественные и качественные методы измерения, но и разработку измерителей, проведение тестирования или другие формы сбора данных, формирование выборочных совокупностей обучаемых для калибровки измерителей или сбора репрезентативных данных, анализ данных, их сопоставление и т.д. По форме представления бипарадигмальные модели могут носить не только описательный характер, но и включать математические модели IRT, методы факторной композиции измерителей и другие математико-статистические методы, используемые для разработки тестов и применения данных тестирования при оценивании качества образования.
Типология бипарадигмальных моделей измерения, охватывающая практически весь спектр задач, решаемых при оценивании качества образования, приводится на рис. 2.9.