Слепая оценка экзаменов не так уж и слепа

TL;DR :

Как я должен слепо оценивать экзамены, если я могу узнать больше половины работ по почерку?

Ситуация: я преподаю в классе физики первого года обучения, в котором примерно 50-60 студентов. Из-за жалобы типа «оценщик ненавидит меня, поэтому я провалил класс» , которую департамент получил в прошлом году, в департаменте есть предложение обеспечить замену тестов на слепую оценку. Однако, поскольку в классе задается довольно много домашних заданий, по опыту я знаю, что могу уверенно распознать более половины почерка в классе. Предлагаемая система основана на том, что учащиеся используют идентификационный номер, который они получают при сдаче теста, который мне не показывают до тех пор, пока я не ввожу оценки в компьютер. Проблема в том, что я чувствую, что это очень мало поможет уменьшить предвзятость, если ассистенты могут просто распознавать почерк без имени.

Если не считать ротации людей для оценки этого материала, у которого есть свои проблемы, есть ли какие-нибудь лучшие способы внедрить систему слепой оценки, чтобы устранить любую предвзятость почерка?

Как ассистент, это не ваша проблема, но: я нахожу предложение перейти на слепую систему оценивания, потому что оценщикам нельзя доверять, чтобы выставлять оценки, довольно проблематично. Кажется, хотя и в слабой, молчаливой форме, это подтверждает возможность того, что оценщики несправедливо предвзято относятся к отдельным учащимся. Но это достаточно серьезное обвинение, чтобы его можно было подтвердить или опровергнуть. Если оценщики могут показать, что они на самом деле последовательно оценивают в соответствии с четким стандартом, дело закрыто. С другой стороны, если ваш персонал на самом деле не заслуживает доверия, вы должны выяснить: это имеет другие последствия...
@PeteL.Clark: я категорически не согласен. Мы начали оценивать вслепую, потому что знаем , что менее объективны, если знаем автора. Вы не должны иметь обиду; просто знание приблизительного уровня навыков учащихся меняет то, как вы читаете их ответы, а затем следует личное взаимодействие. Слепая оценка исключает все это из уравнения — кроме почерка. (Я редко узнаю почерк. Даже если бы я мог определить один, я бы, вероятно, знал только «один из этих четырех», не больше.)
@Raphael: Во-первых, кто такие «мы»? Во-вторых: да, есть проблемы с обеспечением согласованности и правильности выставления оценок. Но оценка «слепой» решает их только косвенно: вы все равно можете быть предвзятым в отношении автора или ставить непоследовательные и неточные оценки, если не знаете, кто автор. (Например, если кто-то демонстрирует непонимание в одной задаче, когда вы оцениваете все последующие задачи, вы имеете в виду это непонимание.) Способ компенсировать отсутствие объективности состоит в том, чтобы принять стиль оценивания, который заставляет вас сохранять свои объективные цели. в памяти и следуйте им.
@PeteL.Clark 1) Моя группа. Мы читаем лекции по алгоритмам для студентов. 2) Это правда. Мы пытаемся смягчить путем оценки по проблемам, а не вручную (у этого есть и другие преимущества), и согласовываем разумные точные схемы оценок для каждой проблемы. Мы проверяем согласованность его применения, делая второй проход только с докторами (которые также не видят почерка студентов в течение семестра). Конечно, вам все еще нужно хотеть оставаться объективным. Лично я обнаружил, что эффект от отсутствия имен на экзаменах делает это намного проще, поскольку он позволяет другой мере, о которой я упоминаю, быть эффективной.
Кроме того, подумайте об этом как о реакции на конкретное обвинение: «Оценщик меня ненавидит, поэтому я провалил урок». Что лучше: «Нет, не волнуйтесь: ученица не знает, кто вы [если, конечно, она не выяснила, кто вы, что, по-видимому, все согласны, происходит хотя бы иногда, но мы надеемся, что это не так». не бывает слишком часто]. Или «То, как оценщик относится к вам, не имеет значения. Либо работа была оценена правильно в соответствии с этим явным стандартом, либо нет. Давайте определим, произошло ли это».
@Raphael: Ваш ответ вполне разумен. Позвольте мне сказать: я бы предпочел сознательно помнить, что мне нужно отделить свои чувства к ученику от оценки его работы, чем использовать слепую оценку с ее неявным утверждением, что это необходимо и достаточно для обеспечения надлежащей оценки. Также: у людей часто возникают догадки о личности анонимных авторов. Если вы академик, то знаете, как часто люди говорят: «Я просто знаю , что рефери был профессор Такой-то». На самом деле вы не знаете, вы просто предполагаете. В контексте оценивания угадывание может быть еще хуже!
Когда я оцениваю, я стараюсь не смотреть на имя и стараюсь не обращать внимания на причуды, которые бесполезны (одна девочка постоянно писала странным цветом). Наличие четкой и подробной разбивки начисленных баллов помогает. Разделите оценку по вопросам, чтобы в случае наличия предвзятости это не повлияло на весь экзамен/домашнее задание (а также получить более единообразную оценку). Имейте надежный механизм для обработки жалоб, в том числе типа «Я потерпел неудачу, потому что они меня ненавидят».
Слепая оценка также защищает от ошибочных или откровенно ложных обвинений в необъективной оценке.

Ответы (5)

Если я правильно понимаю, слепая оценка — это формальность, введенная университетом, чтобы сделать претензии студентов к предвзятым учителям необоснованными. Я бы сказал - так держать и больше не заморачиваться. Вы же не собираетесь их ненавидеть и ставить им более низкие оценки, не так ли? Так что не так уж важно, что вы на самом деле можете распознать почерк. Если студент действительно очень хочет сохранить свою личность в секрете... что ж, он может попытаться написать необычным почерком.

Формально отвечая на ваш вопрос - для реализации настоящей системы слепого оценивания вы можете обмениваться сценариями между отделами или ТА.

...или требовать, чтобы все домашние задания были набраны, чтобы вы не могли выучить почерк учащихся.
@JeffE Еще многое можно сказать по набору студентов. Когда я оценивал задания по информатике, была большая разница между рецензиями в MS Word, рецензиями LaTeX для неопытных и опытными рецензиями LaTeX. Такие вещи, как выбор словарного запаса, распространенные опечатки и т. д., могут облегчить распознавание учащихся. Даже если вы не знаете их имен, будет относительно легко распознать «это задание студента 7892, а это — студента 2034».
@JoshuaTaylor Я думаю, что точка зрения Джеффа в том, что если домашние задания набраны, вы ничего не сможете распознать на рукописных экзаменах.

Другие упомянули проблему исключения рукописного ввода из уравнения путем распечатки домашних заданий или заданий, а не написанных от руки. поэтому я просто добавлю то, что мы обычно делаем в моем отделе.

Добавьте модератора в случайную выборку сценариев/экзаменов.

С модератором, даже если оценщик знает учащегося, оценщик должен учитывать, что будет проверена его собственная оценка. Если Гэри Грейдер постоянно неправильно оценивает работы (из-за предвзятости или просто слабых навыков оценивания), то Мэри Модератор должна заметить это, по крайней мере, на некоторых . Эти флажки могут указывать на необходимость того, чтобы кто-то вмешался и поговорил с оценщиком о предвзятости оценок или других проблемах оценки.

Теперь вы также можете сделать модерацию слепой, чтобы Мэри Модератор не знала, какого оценщика она модерирует. Одной из причин для этого является то, что Мэри может быть обеспокоена тем, что Джордж рассердится на нее (или отомстит и т. д.), поэтому Мэри может просто сказать: «Да, все работы Гэри оценены правильно».

Мы не проводим слепую модерацию, но я слышал, как другие комментируют, что «мы не меняем оценки, потому что не хотим создавать проблемы для наших коллег», что меня сильно беспокоит (потому что оценщики знают об этом, и это, по сути, сводит на нет весь процесс модерации).

+1 за модерацию. Также добавьте схему маркировки, по моему опыту, она хорошо работает в CS и математике, не понимаю, почему бы не использовать ее в физике. Если бы я был в ситуации ОП, я бы не стал узнавать почерк, я бы скорее беспокоился о том, что руководство университета относится ко мне как к потенциально нечестному сотруднику. Если были жалобы от студентов, они должны быть расследованы и обсуждены соответствующим советом университета, а не обвинять всех преподавателей в неспособности дать объективную оценку.
Далее, в Великобритании все экзамены оцениваются как минимум тремя профессорами (и одним из них из другого университета), а оценки пересматриваются комитетом, если они сильно отличаются. Это медленный процесс, но учащиеся могут быть уверены, что их оценки были справедливыми.
@Davidmh Похоже, у вас есть очень интересный набор данных для статистики. Вы проводите какой-то анализ? Какова, например, разница между оценками, выставленными разными профессорами за один и тот же экзамен?
@FedericoPoloni Я не знаю. У меня просто есть друзья, которые учились в Великобритании. IIRC, комитет пересматривает оценку, если разница превышает 5-10%, поэтому они хотят быть достаточно точными.
@Davidmh Я не верю, что ВСЕ экзамены в Великобритании оцениваются так, как вы описываете. Тот, где я преподаю, просто имеет одного оценщика, а ведущий модуля будет модератором.
@earthling может заключаться в том, что не все университеты так делают. Я знаю, что в Эдинбурге все экзамены в школах физики, математики и наук о Земле проходят так.
@Davidmh Может быть темой (у меня бизнес) или местом (у меня в Англии).
@earthling Этот метод использовался в английских университетах в прошлом, хотя, возможно, его больше нет (сейчас я не в Великобритании), но он использовался только для экзаменов, которые засчитывались в окончательный результат, а не для промежуточных экзаменов, за исключением случаев, когда оценивался курс, и в этом случае он был дополнением к внешним вивасам (устным экзаменам).

Я не совсем уверен, что вы подразумеваете под вращением (и связанными с этим проблемами), но мы используем следующую схему:

  • У классников есть «свои» вопросы.
  • экзамены «чередуются» между оценщиками, пока, в конце концов, каждый вопрос не будет исправлен для каждого экзамена.
    • Иногда это делается большими партиями — каждый оценщик идет к секретарю, когда у него есть время, получает все или, может быть, половину экзаменов, исчезает в своем офисе и возвращает экзамены и список оценок, когда они сделаны.
    • Чаще встречаются все оценщики и обмениваются небольшими партиями экзаменов. Здесь каждый получает по одному вопросу, и как только вы закончите (или не сможете легко найти новую партию), вам либо назначат новый вопрос, либо ближе к концу помогут разобраться, кому еще нужно получить какой вопрос, и провести те экзамены, где они нужны. идти. Таким образом, экзамены довольно хорошо перемешиваются, поэтому можно было бы ожидать, что даже если в ходе прохождения всех экзаменов произойдет дрейф в оценках, он будет разным для каждого вопроса и в конце исчезнет.

В этой схеме есть две основные идеи:

  • Даже если есть примеры решений и примерный список вопросов, которые профессор хочет рассмотреть, обычно приходится принимать кучу мелких решений. Легче получить одинаковые оценки для всех учащихся, если оценка за данный вопрос выставляется одним оценщиком.
  • Будет быстрее, если каждый оценщик будет вдаваться в подробности только по нескольким вопросам. Чтобы «вникнуть» в вопрос, может потребоваться значительное время, и, решив вопрос самостоятельно и сравнив его с примерным решением, я предварительно пишу критерии для оценки. Затем я беру около 10-20 экзаменов и отвечаю на вопросы, оценивая их, но фактически не ставя оценок, и проверяю, выполним ли мой предварительный список баллов и какие другие типичные проблемы мне нужно добавить в список. Только после этого начинается собственно оценивание.

Я не могу вспомнить, были ли у нас псевдонимы студентов (по студенческому билету) или у нас были имена - обычно давление заключается в том, чтобы поставить оценки, а это означает, что я (и почти все мои коллеги, кроме того, кто переводит оценки в итоговую список результатов) никогда не смотрите на имя. Я сразу перехожу к листу, где «мой» вопрос (или иногда, особенно ближе к концу, люди, которые уже закончили, делают это для других).

  • При такой схеме влияние одного оценщика, настроенного против конкретного учащегося, весьма ограничено.
    Кстати: некоторые из нас обычно «знают» студентов по лабораторным практикам (другие помогают только с экзаменами и никогда не видели ни одного из студентов) — но это короткие встречи с большим количеством студентов. Учащийся должен быть либо исключительно хорошим, либо исключительно плохим, либо вести себя исключительно каким-то образом, чтобы его запомнили по имени. По крайней мере, для меня, хотя я могу вспомнить кого-то, увидев его, связь с именем или почерком гораздо слабее. Конечно, другое дело, если вы сталкиваетесь с ними снова и снова в течение курса.

Я хотел бы добавить некоторые общие мысли:

  • Хотя я вижу явные преимущества описанной выше системы, которую можно легко реализовать вслепую, студент утверждает, что

     Мой одноклассник меня ненавидит, поэтому я провалил урок

    не входит в число веских причин. Студенты могут посмотреть на свои отмеченные экзамены. Затем они могут пожаловаться, если подозревают, что оценка была несправедливой (или произошла ошибка). Они могут даже попросить кого-то другого оценить их экзамен. Если выяснится, что возникла проблема с оценкой, это решается а) для учащегося (или всех учащихся в схеме «каждый оценщик имеет свои вопросы») и б) будет иметь последствия для оценщика.

  • По моему опыту, студенты, думая, что ассистенты не только помнят их, но и испытывают достаточно сильные чувства, в конечном итоге выставляют предвзятые оценки в измеримой степени (в области, где большая часть схемы оценок обычно формулируется «жесткими» способами, такими как расчет правильно да/нет; ошибка знака, отсутствует метка оси, пропущены единицы измерения: каждая -1/2 балла и т. д.) сильно переоценивает важность данного студента для типичного оценщика (аспиранты или постдоки, которым поручено помогать в выставлении оценок на вершине всех других работ, которые у них есть)

  • Не забывайте, что существует явное предубеждение против провала: неудовлетворенные студенты снова приходят на экзамен и создают множество дополнительных, но неудовлетворительных (ИМХО, гораздо приятнее исправлять хороший экзамен, чем разбирать кашу плохого экзамена). ) работа.

ИМХО, есть некоторые компромиссы. Очевидно, что возможная предвзятость в отношении студентов — это плохо, и ее нужно избегать. С другой стороны, вы должны быть осторожны, чтобы не принимать плохие решения и в конечном итоге оказаться беспристрастными, но в целом еще хуже:

  • Один очевидный способ избежать предвзятости учеников (который также устраняет утечку информации из вопроса) — это иметь оценщиков, которые не были связаны с этими учениками иным образом.
    OTOH, люди, которые были ТА с этими студентами, могут иметь гораздо лучшее представление о том, чего можно ожидать от студентов, чем люди, которые не участвовали в этом курсе (у нас есть достаточное количество аспирантов и докторантов, помогающих с оценкой). которые имеют родственную, но не одинаковую подготовку, например, физики и инженеры-оптики, помогающие оценивать экзамены по физической химии).

  • Другая очевидная возможная предвзятость заключается в том, что наблюдение за тем, что другой оценщик дал в ответ на свои вопросы, повлияет на оценщика*. Это можно было бы устранить, создав отдельные листы для каждого вопроса - за счет того, что это может привести к ошибкам и / или много дополнительной работы, чтобы убедиться, что ничего не потеряно и не перепутано.

  • Уже наличие только студенческого билета или других псевдонимов на практике означает, что некоторый простой способ проверки ошибок удален: гораздо проще перепутать оценки между учащимися при переводе в список оценок, когда список состоит из длинных идентификационных номеров вместо имен.
    Очевидно, что ошибок быть не должно, но такие ошибки случаются. И в какой-то момент следует задаться вопросом, стоит ли устранение предполагаемой предвзятости того, что меньше времени может быть потрачено на фактическое обучение студентов, потому что оно тратится на двойную проверку анонимных списков и исправление возникших ошибок.

* (Но для наших экзаменов довольно характерно, что студенты показывают очень разные результаты в разных разделах: с термодинамикой у кого-то все в порядке, а с кинетикой нет, и наоборот)

Слепая оценка никогда не должна позволять связывать имя учащегося с номером учащегося. Ваши листы оценок должны быть закодированы только номером студента до конца семестра. Все письменные задания, отмеченные или не отмеченные, должны быть обозначены номером. Таким образом, у вас будет гораздо меньше шансов выучить почерк. Вы получите странный взгляд, когда студент покажет вам бумагу, чтобы задать вопрос.

Я не уверен, что такая полная анонимность применима во многих условиях курса. Если бы ОП был просто оценщиком, я бы увидел, что это работает хорошо, но он сказал, что он ТА. Так что, по-видимому, он также лично взаимодействует со студентами и отвечает на вопросы об их наборах задач, экзаменах и их оценках. Во многих случаях, если вы никогда не увидите почерк учащегося, это затруднит или сделает невозможным выполнение обязанностей ассистента.
@PeteL.Clark И дело не только в почерке. Если студент приходит к вам и спрашивает о недоразумении, это может быть довольно очевидно, когда такое же недоразумение появляется в задании. Даже без личного общения другие функции делают домашние задания узнаваемыми в течение семестра. Может быть невозможно определить имена учащихся после двух заданий, но часто не так уж сложно распознать, что представление78 для домашнего задания1 и представление 93 для домашнего задания2 поступило от одного и того же ученика.
@Джошуа: Да, я согласен. Вывод: меры, необходимые для серьезного обеспечения анонимности, во многих случаях кажутся противоположными работе ТА.
@PeteL.Clark Я полностью согласен; Я не думаю, что анонимность — это все, чем она занимается. Ужасно трудно помочь учащимся, если убран один из типичных способов распознавания их трудностей.
В первый раз, когда учащийся запрашивает переоценку, вы можете привязать этого учащегося к его идентификационному номеру.
@JeffE Я сказал, что это уменьшает, а не устраняет возможности изучения почерка учащихся. Кроме того, я с трудом запоминаю имена учеников. Я думаю, что для большинства ученых было бы невозможно запомнить их имена и студенческие билеты.

Чтобы помочь «спасти меня от самого себя», с первого момента, когда мне разрешили реализовать частичный зачет (после того, как я ускользнул от абсолютной настойчивости моей альма-матер в отношении оценок по принципу «все или ничего»), я начал создавать невероятно, временами смехотворно подробные рубрики ( вплоть до половины балла, даже для многих вопросов на 100-балльном экзамене) с подробным описанием каждого мыслимого уровня (и временной шкалы) ошибок, которые может сделать студент (или, по крайней мере, я мог предвидетьони делают), и я заставляю себя придерживаться этого. Даже если студент раздражает меня своей шумной болтливостью в классе, даже если он уже попался в сеть академических проступков ранее при нашем знакомстве, это заставляет меня относиться к нему так же, как и к любому другому студенту. Если для кого-то это ошибка на 3 балла, то и для него это тоже будет ошибкой на 3 балла.

(Врезка, ваша честь: извините, ребята, за гендерную предвзятость, но после одного XX, чтобы начать печальный список Dishonor, это была непрерывная полоса из примерно 76 подряд для XY.)

Я также оцениваю каждый экзамен по одной странице за раз, чтобы помочь разбить экзамены и заставить нейроны распознавания рукописного ввода срабатывать реже. Это также имеет дополнительное преимущество, поскольку не дает мне превратить любые опасения, которые могут возникнуть в отношении тенденций в оценках до сих пор (поскольку я еще не знаю общих результатов), в неуместное смещение планки стандартов на полпути.

Что-то, что я раньше делал (я больше не преподаю), заключался в том, чтобы ставить оценки таким образом, чтобы не было никаких проблем, если какой-либо или все учащиеся сравнивают свои оцениваемые тесты с любым или всеми другими учащимися в классе, и это, безусловно, происходило в моем классе. занятиях (и я сам иногда это делал в студенчестве). Еще одна вещь, которую я начал делать (после нескольких лет преподавания), заключалась в том, чтобы ксерокопировать свои решения/рубрики и возвращать их копию с каждым тестом. Даже до этого я часто раздавал решения, чтобы сэкономить время занятий (и рабочее время), и в какой-то момент я понял, что могу сэкономить еще больше (продолжение)
(продолжение) моего личного времени, просто возвращая то, что я уже написал от руки для целей оценки, и не пытаясь переписать это снова в более аккуратной форме. Решения часто были краткими, но для целей рубрики я всегда показывал шаги, которые, как я ожидал, некоторые студенты пропустят, поэтому это действительно сработало с большинством студентов (которые все равно могли и часто делали, чтобы спросить своего соседа за разъяснениями). Что касается рубрики, то это часто было «незавершенной работой» в том смысле, что я принимал решения об оценке всякий раз, когда появлялась ошибка определенного типа, а не пытался предвидеть их заранее.