Я ассистент преподавателя по курсу экономики, и одной из моих обязанностей является оценка экзаменов.
Я только что закончил контрольные работы, и оценки были очень плохими. Подробности (приблизительно):
Среднее значение: 23 %
Стандартное отклонение: 5 %
Мин.: 4 %
Макс.: 68 %
Количество учащихся: 84
После консультации с профессором мне сказали масштабировать оценки. Метод, который он дал мне, заключался в том, чтобы прибавлять фиксированную сумму к оценке каждого ученика так, чтобы среднее значение равнялось 72%.
Мне кажется, что это неадекватный способ скорректировать распределение оценок и будет несправедливым по отношению к учащимся, которые набрали гораздо больше баллов, чем средний класс.
Мой вопрос: как лучше всего изменить шкалу оценок за экзамен, чтобы они были справедливы для всех учащихся в классе?
Во-первых, давайте признаем, что это было ужасное испытание. У вас почти нет возможности различать разные способности учеников со средним значением 23% и стандартным отклонением 5%.
Затем вы должны решить, что делать. Лично я бы уменьшил вес этого теста, признав, что он был плохим (или дал бы учащимся возможность позволить чему-то другому учитываться больше). Но если вы просто хотите решить это численно, существуют следующие ограничения:
Если вы прибавите к оценкам 49 %, вы получите среднее значение 72 %, но ваша максимальная оценка составит 117 %. Вы можете ограничить его на уровне 90-95% или около того, но лучшие студенты будут неразличимы. Таким образом, вам придется уменьшить масштаб, также сжав оценки, например, умножив разницу с 23% на (28/45), чтобы вернуть ее в диапазон. Это сделает студентов различимыми, но не осмысленно .
На самом деле лучший вариант — изменить схему оценивания, чтобы у вас было более высокое среднее значение и больше различий между разными баллами (насколько это возможно). Например, вы можете дать определенное количество баллов за попытку решить задачу вообще, количество баллов за запись всего, что имеет отношение к правильному ответу, и т. д.
Однако вы можете просто напрямую преобразовать свои старые оценки в новые оценки со средним значением и отклонением, которые вам нравятся. Позвольте icdfG(p)
быть значением, при котором вероятность получения более низкого балла процентиля p
из нормального распределения со средним значением 0 и стандартным отклонением равна 1. Затем вы можете просто вычислить процентили и сопоставить
new score = 72 + icdfG(percentile)*10
или что-то еще, чтобы получить среднее значение 72 и стандартное отклонение 10. (Ваш лучший ученик в классе из 84 человек будет иметь процентиль 83,5/84, если вы сделаете это таким образом.) Ваш лучший ученик получит 97 баллов ниже эта схема (и вторая, набравшая 93 балла)
В противном случае вам, вероятно, лучше всего использовать нелинейное преобразование; arctan
это хорошая функция для этого, так как она раздавит хвосты; и вы, вероятно, хотите SD не менее 10, а не 5, поэтому вы можете сделать что-то вроде
new score = 72 + 50/Pi * arctan((score - 23)/10)
что даст максимальный балл, если 93,5, минимальный балл 54,7, а одно стандартное отклонение вверх и вниз даст 79,4 и 64,6 соответственно.
Но опять же, лучшие варианты — это обесценить тест как плохой тест и изменить схему оценивания (ужасно много работы, но это даст более справедливые результаты).
Существует несколько способов масштабирования тестов. Вы можете взять лучший результат, сделать его равным 100%, а затем добавить одинаковую сумму ко всем оценкам. Вы можете взять среднее значение, добавить определенную сумму к каждому баллу, чтобы новое среднее значение было желаемым. У вас может быть скользящая шкала, чтобы те, у кого самые низкие баллы, добавлялись больше всего, а те, у кого были самые высокие баллы, добавлялись меньше всего.
Не зная желаемых результатов или того, что представляет собой «А», «В» или «С», трудно сказать, к чему вы должны масштабировать свои оценки.
Возьмите sqrt сырого сорта (представьте сырой класс в процентах), и вы получите что-то, что выглядит нормально.
Делай в точности то, что он сказал! Не из-за рабского послушания, а потому, что это работает на удивление хорошо. IOW добавляют 49% (= 72%-23%) к оценке каждого человека. [На самом деле теперь, когда я думаю об этом... еще проще просто добавить 50%. Очень легко понять.]
Новая шкала: Среднее: 73 % Мин.: 54 % Макс.: 118 %
Средний балл теперь «низкий C». (Предполагая нормальные границы FDCBA 60-70-80-90.) Это среднее значение, вероятно, немного ниже, чем обычно, но достаточно разумно, чтобы вы не услышали криков убийства на жестком экзамене. (Тем более, что им бросают кость вместо без изменений.) И, вероятно, класс нуждается в некотором остатке «порки» за плохую работу. Таким образом, низкий C является хорошим средним значением для этого индивидуального теста.
Минимум теперь будет F, но не такой убийственный, чтобы семестр был потерян для тех, кто его провалил (если они хорошо справятся, остальные, конечно, могут пройти курс, может быть, даже получить джентльменскую C). И, вероятно, будет несколько F, но не так много. Некоторые отказы из группы 84 это нормально.
Студент, набравший 68%, теперь будет иметь отметку более 100%. Что она, наверное, и заслужила. Это подавляет некоторые жалобы со стороны Гермионы Грейнджер, которые чувствуют себя обиженными, когда стандарты снижаются после того, как они хорошо работают, и класс получает перерыв.
Я думаю, если вы попробуете, вы найдете очень разумную группировку в набор F/D/C/B/A. Кроме того, у него есть дополнительное преимущество — делать то, что вам сказали (просто в качестве бонуса). Плюс... вам не нужно полностью переосмысливать это. Это один тест из нескольких.
Еще одним дополнительным преимуществом является простота. Вместо того, чтобы объяснять какое-то нелепое преобразование (например, объединение каждого квинтиля или квадратного корня из арктангенсов). У вас просто быстрая разница. Легко обрабатывается для вас. И легко понять для класса. Иногда простое лучше побеждает сложное идеальное.
Зев Чонолес
ДжеффЭ
Дэвид Такер