Как масштабировать или изменять оценки за экзамен?

Я ассистент преподавателя по курсу экономики, и одной из моих обязанностей является оценка экзаменов.

Я только что закончил контрольные работы, и оценки были очень плохими. Подробности (приблизительно):

Среднее значение: 23 %
Стандартное отклонение: 5 %
Мин.: 4 %
Макс.: 68 %
Количество учащихся: 84

После консультации с профессором мне сказали масштабировать оценки. Метод, который он дал мне, заключался в том, чтобы прибавлять фиксированную сумму к оценке каждого ученика так, чтобы среднее значение равнялось 72%.

Мне кажется, что это неадекватный способ скорректировать распределение оценок и будет несправедливым по отношению к учащимся, которые набрали гораздо больше баллов, чем средний класс.

Мой вопрос: как лучше всего изменить шкалу оценок за экзамен, чтобы они были справедливы для всех учащихся в классе?

Это субъективно; нет "лучшего" способа. Также: поговорите с профессором, которого вы оцениваете, о том, что вас беспокоит .
Я бы вообще не пересчитывала оценки. Я бы просто полностью исключил экзамен (но отдельно отследил бы нескольких хорошо сдавших экзамен студентов).

Ответы (4)

Во-первых, давайте признаем, что это было ужасное испытание. У вас почти нет возможности различать разные способности учеников со средним значением 23% и стандартным отклонением 5%.

Затем вы должны решить, что делать. Лично я бы уменьшил вес этого теста, признав, что он был плохим (или дал бы учащимся возможность позволить чему-то другому учитываться больше). Но если вы просто хотите решить это численно, существуют следующие ограничения:

  1. У вас не может быть наивысшего балла выше 100%
  2. Среднее значение должно быть 72%
  3. Вы хотите, чтобы все различия по-прежнему что-то значили

Если вы прибавите к оценкам 49 %, вы получите среднее значение 72 %, но ваша максимальная оценка составит 117 %. Вы можете ограничить его на уровне 90-95% или около того, но лучшие студенты будут неразличимы. Таким образом, вам придется уменьшить масштаб, также сжав оценки, например, умножив разницу с 23% на (28/45), чтобы вернуть ее в диапазон. Это сделает студентов различимыми, но не осмысленно .

На самом деле лучший вариант — изменить схему оценивания, чтобы у вас было более высокое среднее значение и больше различий между разными баллами (насколько это возможно). Например, вы можете дать определенное количество баллов за попытку решить задачу вообще, количество баллов за запись всего, что имеет отношение к правильному ответу, и т. д.

Однако вы можете просто напрямую преобразовать свои старые оценки в новые оценки со средним значением и отклонением, которые вам нравятся. Позвольте icdfG(p)быть значением, при котором вероятность получения более низкого балла процентиля pиз нормального распределения со средним значением 0 и стандартным отклонением равна 1. Затем вы можете просто вычислить процентили и сопоставить

new score = 72 + icdfG(percentile)*10

или что-то еще, чтобы получить среднее значение 72 и стандартное отклонение 10. (Ваш лучший ученик в классе из 84 человек будет иметь процентиль 83,5/84, если вы сделаете это таким образом.) Ваш лучший ученик получит 97 баллов ниже эта схема (и вторая, набравшая 93 балла)

В противном случае вам, вероятно, лучше всего использовать нелинейное преобразование; arctanэто хорошая функция для этого, так как она раздавит хвосты; и вы, вероятно, хотите SD не менее 10, а не 5, поэтому вы можете сделать что-то вроде

new score = 72 + 50/Pi * arctan((score - 23)/10)

что даст максимальный балл, если 93,5, минимальный балл 54,7, а одно стандартное отклонение вверх и вниз даст 79,4 и 64,6 соответственно.

Но опять же, лучшие варианты — это обесценить тест как плохой тест и изменить схему оценивания (ужасно много работы, но это даст более справедливые результаты).

Отличный ответ, спас меня от ввода чего-то очень похожего.
У вас не может быть наивысшего балла выше 100% — почему бы и нет? Как только вы признаете, что оценка — это даже не приблизительный процент правильно выполненной работы, почему она вообще должна быть в процентах?
@JeffE - Я понимаю вашу точку зрения, но некоторым школам нравится оценивать процентили, и их может не забавлять, что какой-то ученик набрал 220%. Опять же, тот, кто получил эти 68%, проделал потрясающую работу; десять стандартных отклонений выше среднего!
@RexKerr: Но как школа узнает? Преподаватели обычно сообщают только общую оценку по курсу, а не оценки по отдельным экзаменам. (Я предполагаю, что это не тот курс, где один экзамен определяет оценку всего курса.)
@JeffE - Студенты говорят о вещах и жалуются, если чувствуют, что что-то не так. Оценка по кривой, когда кто-то набрал 220%, может сильно демотивировать (даже если кривая не чувствительна к этому выбросу). Так что , если школе не все равно, я не думаю, что они не узнают. Велика вероятность, что в школе нет, но могли бы.
@RexKerr: Прежде чем разбирать тест, возможно, проблема заключается в стандартах оценки.
Я в замешательстве, как у вас с вычислительной мощностью? Может ли применение монотонного преобразования (например, арктангенса) действительно увеличить мощность? Я думаю, что изменчивость результатов отдельных тестов повлияет на мощность (например, экзамен из 100 вопросов по сравнению с экзаменом из 10 000 вопросов).
@DanielE.Shub - Само по себе это ничего не делает с мощностью, но если вы добавите баллы, которые составляют 20% оценки и имеют разброс 2%, к баллам, которые составляют 20% оценки и имеют 10 % разброса, только последний разброс действительно будет иметь значение для оценок большинства учащихся. Поэтому, если на самом деле вариация не является случайной в пределах небольшого разброса, созданного этим тестом, вы не хотите, чтобы этот разброс был слишком маленьким по сравнению с другими. Вы можете выбрать разброс, чтобы он соответствовал тому, что вы считаете справедливой оценкой фактической способности этого теста различать.
@aeismail - Тест, в котором только на 23% вопросов даны правильные ответы , по-прежнему остается паршивым тестом. Таким образом, если система подсчета очков не является абсолютно бессмысленной (вы теряете все баллы за вопрос 4, если ошиблись в ответе на вопрос 2), она не соответствовала уровню способностей учащихся. Также обратите внимание, что я рекомендовал пересмотреть стандарты подсчета очков, чтобы попытаться спасти ситуацию.
Тест, в котором только на 23% вопросов даны правильные ответы, все равно остается паршивым тестом. — Категорически не согласен!! Совершенство должно быть редкостью.
@JeffE - Вот почему вы делаете одни вопросы сложнее, чем другие . Заставлять их застревать на каждом вопросе — не лучший способ помочь учащимся продемонстрировать свое мастерство. (Это благо для тех студентов, которые особенно хорошо умеют переключаться между вопросами, когда застревают.)
Может быть поэтому вы делаете одни вопросы сложнее других, но я определенно не поэтому делаю одни вопросы сложнее других. Увидеть, как далеко люди могут подняться в гору, — это фантастический способ продемонстрировать свое мастерство в альпинизме , даже если никто не достигает вершины. Между «не совершенным» и «застрявшим» огромная разница .
@JeffE - Превращение большинства вопросов в упражнение по почти безграничному лазанию означает, что каждый тест касается управления и расстановки приоритетов в той же или большей степени, чем предмет.

Существует несколько способов масштабирования тестов. Вы можете взять лучший результат, сделать его равным 100%, а затем добавить одинаковую сумму ко всем оценкам. Вы можете взять среднее значение, добавить определенную сумму к каждому баллу, чтобы новое среднее значение было желаемым. У вас может быть скользящая шкала, чтобы те, у кого самые низкие баллы, добавлялись больше всего, а те, у кого были самые высокие баллы, добавлялись меньше всего.

Не зная желаемых результатов или того, что представляет собой «А», «В» или «С», трудно сказать, к чему вы должны масштабировать свои оценки.

Возьмите sqrt сырого сорта (представьте сырой класс в процентах), и вы получите что-то, что выглядит нормально.

Это не ответ и даже не комментарий!

Делай в точности то, что он сказал! Не из-за рабского послушания, а потому, что это работает на удивление хорошо. IOW добавляют 49% (= 72%-23%) к оценке каждого человека. [На самом деле теперь, когда я думаю об этом... еще проще просто добавить 50%. Очень легко понять.]

Новая шкала: Среднее: 73 % Мин.: 54 % Макс.: 118 %

Средний балл теперь «низкий C». (Предполагая нормальные границы FDCBA 60-70-80-90.) Это среднее значение, вероятно, немного ниже, чем обычно, но достаточно разумно, чтобы вы не услышали криков убийства на жестком экзамене. (Тем более, что им бросают кость вместо без изменений.) И, вероятно, класс нуждается в некотором остатке «порки» за плохую работу. Таким образом, низкий C является хорошим средним значением для этого индивидуального теста.

Минимум теперь будет F, но не такой убийственный, чтобы семестр был потерян для тех, кто его провалил (если они хорошо справятся, остальные, конечно, могут пройти курс, может быть, даже получить джентльменскую C). И, вероятно, будет несколько F, но не так много. Некоторые отказы из группы 84 это нормально.

Студент, набравший 68%, теперь будет иметь отметку более 100%. Что она, наверное, и заслужила. Это подавляет некоторые жалобы со стороны Гермионы Грейнджер, которые чувствуют себя обиженными, когда стандарты снижаются после того, как они хорошо работают, и класс получает перерыв.

Я думаю, если вы попробуете, вы найдете очень разумную группировку в набор F/D/C/B/A. Кроме того, у него есть дополнительное преимущество — делать то, что вам сказали (просто в качестве бонуса). Плюс... вам не нужно полностью переосмысливать это. Это один тест из нескольких.

Еще одним дополнительным преимуществом является простота. Вместо того, чтобы объяснять какое-то нелепое преобразование (например, объединение каждого квинтиля или квадратного корня из арктангенсов). У вас просто быстрая разница. Легко обрабатывается для вас. И легко понять для класса. Иногда простое лучше побеждает сложное идеальное.