«Нужно уменьшать время тестирования и добиваться согласования между тем, что мы хотели измерить и тем, что реально измерили»

Декан факультета Информационных технологий и руководитель программы «Психолого-педагогические измерения» Лев Куравский рассказывает об особенностях современного компьютерного тестирования.

 

- Зачем нужно разрабатывать новые математические модели для тестирования?

- Это очень востребовано. Классическая теория тестирования, которая была разработана в первой половине 20 века, фактически копировала подход, сложившийся в физике. Нечто измеряется с определёнными ошибками,  а затем уточняется, насколько они велики. В 1960-х годах появился подход IRT, который по-русски принято называть современной теорией тестирования. Этот подход опирается на модель Раша, которая связывает вероятность решения с разностью между способностями и трудностью задачи. В принципе она отражает реальную картину, но не учитывает, например, динамику выполнения тестовых заданий. Этот подход является основным на Западе. Наши профильные организации, несмотря на то, что IRT появился давно, его используют редко. При этом на проведение контрольных мероприятий тратятся огромные ресурсы. Баллы, как правило, считают в классической системе. А наши технологии учитывают самые разные нюансы. Мы даже можем фильтровать некорректные вмешательства.

 

- То есть, в результатах тестирования можно выявить подсказки и угадывание?

- Для этого применяется фильтр Калмана, хорошо известный в технических приложениях. На этом материале наши выпускники защитили уже две диссертации.


3.jpg

 

- Как это работает?

- Вмешательство легко обнаружить, когда, например, человек с относительно слабым уровнем подготовки начинает неожиданно легко решать задачи. Если мы знаем, что он относится к определенному типу, то фильтр вносит определённую поправку в нужную сторону.

  

- Какие еще вызовы стоят перед создателями новых тестовых систем?

- Нужно уменьшать время тестирования, повышать надежность оценок и добиваться согласования между тем, что мы хотели измерить, и тем, что реально измерили. Эти проблемы ждут своего решения.  

 

- Почему в тестировании так важна скорость?

- Чтобы тест, с одной стороны, не утомлял, а, с другой стороны, отнимал разумное время. Представьте: проводится тест для подготовки ребенка к школе. Психолог дает 10 заданий. Ребенок после 3-4 примера начинает засыпать от утомления. Если бы заданий было меньше, хотя бы 2-3… Наши технологии тестирования позволяют в случае, когда уровень испытуемого очевиден, оборвать процесс.

 

- Чем еще отличаются ваши тесты?

- Наши технологии опираются на вероятностные модели, более сложные, чем классическая модель Раша. Эти модели – одна из форм марковских процессов. На практике трудно работать со случайными процессами в общем виде, поскольку у них слишком много параметров. Чтобы задачи, где используются эти процессы, сделать поддающимися решению, на процессы следует накладывать определённые ограничения. Самое удобное – добавить марковские свойства. Они очень простые: будущее зависит от прошлого только через настоящее. Это ограничение позволяет представить процессы в приемлемой для решения математической форме: в виде матричных уравнений, систем обыкновенных дифференциальных уравнений или, как в экспериментах с исследованием глазодвигательной активности, в виде уравнений в частных производных. Процедура тестирования при этом может быть адаптивной, когда испытуемый получает задания,  соответствующие текущей оценке его способностей. Мы нашли и другое применение нашим технологиям…

 

- Например?

- В задачах, связанных с подготовкой операторов сложных технических систем.  В частности, пилотов. Для получения информации о состоянии и квалификации пилотов мы используем запись траекторий движения их зрачков глаз. По тому, как взгляд перемещается по окну и приборным панелям кабины летательного аппарата, можно различать пилотов с разным уровнем квалификации. Кроме того, эксперименты показали, что ряд параметров этих траекторий зависит от психофизиологического состояния. Например, если человек долго или некорректно интерпретирует информацию, считанную с приборов, показатели его глазодвигательной активности меняются определённым образом. Это очень перспективное исследование, позволяющее, по сути, определять профпригодность. Недавно мы заключили договор с корпорацией Boieng, которая планирует использовать наши результаты.

 

DSCN4299-1.JPG


- Давайте поговорим об одном из самых понятных тестов: ЕГЭ. Экзамен много критикуют за то, что концепция самого теста плохая, или всё-таки подкачало исполнение?

- ЕГЭ поглощает много ресурсов и времени. Но самое печальное – это то, что школьники не учатся, а натаскиваются на определённые задания. Эти тесты оценивают какую-то часть заявленных навыков, но далеко не все. Не измеряются способности к нестандартному мышлению и умение логически мыслить. Как правило, то, что оценивается при выполнении заданий ЕГЭ по профильным дисциплинам, не связано с определяющими профессиональными качествами, которые  необходимы будущему специалисту, например, инженеру, программисту или математику. Какие-то осмысленные технологии при обработке результатов тестирования не используются - просто выполняется несложный подсчёт баллов. Плохо, что в ЕГЭ слишком много сил тратится на правильное оформление результатов. А люди с хорошо выраженными творческими способностями далеко не всегда справляются с этим удачно.

 

- Каков альтернативный подход?

- У специалистов по компьютерному тестированию на это примерно одинаковая точка зрения: тестирование не должно заменять реальный процесс оценки знаний, навыков и способностей. Должны быть ещё какие-то экспертные оценки, живое общение. Полностью заменить экзамены тестированием нельзя.


aFOTO9680_LR.jpg

 

- Вы можете привести пример задания, которое не оторвано от реальности?

- Это обычная профессиональная деятельность. То есть, если вы хотите оценить навыки, просто дайте человеку решить какую-то прикладную задачу. Реальную! В чём преимущества оценки уровня подготовки пилотов на тренажёрах? В том, что при этом не решаются какие-то надуманные искусственные задачи: например, считать с приборной доски такую-то информацию и доложить её инструктору. Имитируется управление реальным летательным аппаратом. Здесь все по-честному.


DSCN4325-1.JPG

 

- Вы используете машинное обучение?

- Да. Наш адаптивный тренажер для решения математических задач, который мы разработали для Московского центра качества образования, как раз и решает одну из задач такого обучения. Он оценивает способности учащегося, учитывая не только успешность, но и динамику выполнения заданий, и предлагает упражнения, которые оптимизируют процесс формирования необходимых навыков. 

DSCN1950.JPG