Лучшая статистика оценок

Я новичок в преподавании информатики. По этому предмету студенты должны сдать экзамен. Есть ли какие-либо статистические данные помимо средних, медианных, максимальных и минимальных баллов, которые вы можете порекомендовать для расчета? Кроме того, можете ли вы порекомендовать какие-либо визуализации для сравнения по годам или сравнения с различными предыдущими годами?

Любая помощь приветствуется.

Зачем вам эта статистика?
Я хочу оценить, меняется ли разброс оценок из года в год. Чтобы лучше понять, улучшается ли преподавание, например
Сколько студентов ежегодно сдают экзамен? Тщательно подумайте, достаточно ли у вас точек данных для получения значимой статистики.
Около 60-80 студентов каждый год. Этого достаточно?
Попытки заниматься статистикой без формального статистического образования, скорее всего, приведут к ошибочным выводам.
Я никогда не вычисляю медиану или среднее значение, я вычисляю только распределения (гистограммы). Тем не менее, я не сравниваю результаты экзаменов из года в год, поскольку все меняется. Но я иногда сравниваю итоговые буквенные оценки от семестра к семестру или между разделами.
Ваш вопрос совершенно по теме здесь, но я также предлагаю проверить cseducators.stackexchange.com
Раньше я делал это интенсивно (MA в статистике здесь) в течение нескольких лет, но, честно говоря, так и не нашел для этого реального применения. В социальной системе слишком много шума и слишком много переменных, чтобы делать какие-либо действенные выводы.
@GEdgar - честно говоря, ошибочные выводы случаются только в 5 из 3 случаев ...
@DanielR.Collins Это отсутствие полезности звучит интересно. Вы где-то писали об этом подробнее?
У вас есть справочная информация о студентах? Например, можете ли вы пометить каждого учащегося, указав его возраст, пол, пол, средний балл, расу, специальность, результаты SAT, количество лет обучения в программе, количество попыток пройти этот курс и т. д.? Если у вас нет такой информации, вам, вероятно, потребуются огромные размеры выборки для компенсации.
Как мысль: основные стандартизированные экзамены, такие как SAT, обычно требуют большого анализа своих результатов. У них часто действительно есть много демографической информации об испытуемых, плюс гораздо большие размеры выборки, чем вы, вероятно, получили бы в классе, плюс многолетние данные, а также другие более приятные факторы. Так что, если они могут легко что-то рассчитать, то вы можете сделать грубую версию того же самого. Однако, если они не смогли получить данные для чего-то, то это может быть слишком амбициозно.
@Galen: К сожалению, нет. Спасибо за вопрос.
.... хотя я процитирую Эрнеста Резерфорда, когда он сказал: «Единственно возможная интерпретация любого исследования в« социальных науках »: некоторые делают, некоторые нет».

Ответы (2)

Представляя результаты экзамена студентам, я обычно публикую гистограмму распределения баллов вместе с минимальным, максимальным, медианным и средним значением и называю это хорошим. Я всегда смотрю на гистограммы средних баллов по вопросам (для этого отлично подходит Gradescope), но я обычно не публикую эти диаграммы, если только не хочу поделиться чем-то интересным с классом, например, вопрос оказался слишком сложным. сложнее, чем мы ожидали.

Но позвольте мне немного помыкать. Сам экзамен важнее, чем то, как вы сообщаете статистику.

Хороший экзамен преследует несколько целей. Учащиеся ожидают оценок, поэтому, конечно, он должен справедливо измерять и дифференцировать успеваемость ваших учеников и давать им полезную обратную связь о том, что они делают хорошо или не очень хорошо в задачах различной сложности. Нанеся оценки в виде гистограммы, вы должны увидеть красивую колоколообразную кривую распределения.

Во-вторых, хороший экзамен должен также измерять вашу успеваемость. Предполагая, что разные вопросы или задачи проверяют разные вещи, столбчатая диаграмма средних баллов по вопросам может сразу сказать вам, какие цели обучения в целом были достигнуты, а какие нет.

В-третьих, хороший экзамен — это последний шанс научить или укрепить ваши цели обучения, например, с задачей, которая требует, чтобы учащиеся продвинулись в том, что они узнали, на один маленький шаг вперед, что может привести к моменту «ах-ха». (Один из моих сотрудников называл подобные проблемы «острыми».)

Мне нравится большая часть этого ответа. Но я верю, что "ах-ха!" моменты, хотя в целом они абсолютно желательны, не должны быть целью экзаменов с ограничением по времени. Студенты находятся под таким давлением, что они не оценят ни одно учение, которое пытается дать экзамен. Я предпочитаю экономить "ах-ха!" моменты, когда учащиеся открыты для них — уроки, рабочие часы или несвоевременная оценка, такая как домашняя работа. (Более того, стремление к «острым» задачам часто приводит к экзаменам с негативными вопросами — слишком длинными, слишком сложными и т. д.)
Обычно я публикую более низкий квантиль, а не фактический минимум, чтобы избавить одного или двух студентов.
@GregMartin Хороший рассчитанный по времени экзамен — это тот, на котором почти у всех студентов заканчиваются ответы, которые они могли бы улучшить, прежде чем у них закончится время. Кроме того, обратите внимание на фразу «на один маленький шаг вперед». Это никогда не должно быть вопросом с подвохом или вопросом, в котором момент «ах-ха» неясен. Разумным примером может быть рекурсивная задача на вступительном экзамене по CS с одним рекурсивным или базовым случаем больше, чем в примерах из лекции, с просьбой к студенту немного обобщить то, что они узнали.

Не переусердствуйте и не придавайте слишком большого значения любому набору цифр. Для этого есть много причин, но самая основная заключается в том, что любой данный класс не является случайной выборкой из «населения», а сама совокупность меняется из года в год, а также ее трудно определить.

Ваш список возможных статистических данных в порядке. Чем сильнее вы пытаетесь его продвигать, тем менее надежными будут ваши цифры. И не придавайте большого значения тому, почему некоторые статистические данные (минимум, максимум) сильно различаются от класса к классу. Выборки большего размера имеют тенденцию к выравниванию среднего значения, конечно, как и ожидалось, но, возможно, не к моде или даже к форме распределения.

Но еще большая проблема заключается в том, что профессору нужно относиться к каждому студенту как к личности, а не как к точке данных. Все ученики разные, и каждый ученик, вероятно, отличается от вас. Сам факт того, что вы находитесь там, где вы есть, с вашим образованием и интересами, отличает вас от почти всех ваших студентов, у которых другие цели, чем у вас. Вам нужно научиться с этим справляться.

На каком бы уровне вы ни преподавали, вы обнаружите, что некоторым ученикам все это кажется очень легким, а другим очень трудным. Помимо разной мотивации того, чему вы учите. Вы должны быть готовы (и я надеюсь, что способны) поставить всем ученикам высокие оценки. Или подвести всех в крайнем случае. Вам нужно больше работать с некоторыми учениками и для них, чем с другими. Вам нужно изучить приемы, чтобы сделать это эффективно. Статистика вам мало чем поможет, и, в частности, она может ничего не сказать о вас, хотя если вам нужно всех подвести, то нужно обдумать это и внести изменения.

У меня были классы, где все были (более чем) способны получить высшие оценки. Я никогда в жизни не работал больше. У меня также были занятия, на которых мне нужно было сказать им, что все они могут потерпеть неудачу, если они не изменят свое (учебное) поведение. Обе ситуации могут закончиться хорошо, хотя в последнем случае мне пришлось потратить время, чтобы научить их эффективному обучению.

Одна из практик, которую я использовал в обучении, заключалась в том, чтобы посмотреть на общие оценки в конце курса, чтобы увидеть, соответствует ли, неформально, распределение тому, что я «думал» об общем уровне обучения. Если бы я думал, что оценки «кажутся» ниже моих суждений об их обучении, я бы немного повысил общие оценки, но не снизил их. Это по-прежнему выполняло мой «контракт» с ними, согласно которому, если они заработают X баллов, их оценка будет (по крайней мере) Y. Любые сюрпризы в конце были приятными. И все же студенты считали меня очень требовательным инструктором.

Но я также понимаю, что когда я был начинающим инструктором, я был слишком жестким. Опыт очень помог, и для многих новых университетских преподавателей не существует курсов по педагогике, которые научат вас, как сделать это правильно на раннем этапе.


Отредактировано для добавления: Если ваши 60-80 студентов разделены на разные секции, будьте готовы обнаружить, что между секциями могут быть различия в производительности, даже если «обучение для них одинаковое». Одной из самых трудных вещей, которые я когда-либо делал, и я до сих пор не уверен, что мне это удалось, было преподавание трех разделов одного и того же курса примерно по 30 в каждом «спина к спине» в течение трех часов подряд.


Однако есть один статистический показатель, хотя я не могу вспомнить его название, который проверяет правильность отдельных вопросов. Вполне возможно, что формулировка некоторых вопросов экзамена сбивает с толку или вводит в заблуждение, и лучшие студенты хуже, чем в среднем по этому вопросу. По сути, он измеряет распределение на вопрос по сравнению с распределением в целом. Это не показатель успеваемости учащихся, а показатель достоверности/надежности самого экзамена. Возможно, кто-то, кто больше разбирается в статистике, может указать название меры. Этот стоит рассмотреть.


И если ваш отдел ограничивает то, что вам разрешено делать, то увидите следующее: Оценки слишком высокие для отдела - что мне делать?

Я хотел бы проголосовать за этот ответ несколько раз. Я надеюсь, что ОП примет это близко к сердцу.