Как выглядит оптимальное распределение оценок?

Исследователи образования, должно быть, думали об этом, поэтому я надеюсь найти здесь некоторые направления. Предположим, что я оцениваю учащихся по шкале от 1 до 10. Если у меня нет предварительных знаний о способностях учащихся, но я получил их результаты тестов (скажем, от 1 до 100).

Предположим, что эти результаты тестов имеют только порядковый номер. Можно сказать, что учащийся с более высоким баллом добился лучшего усвоения курса, но двойной балл не означает, что он достиг в два раза большего, чем другой учащийся. Мы также можем предположить, что экзамен сдавало (статистически) большое количество студентов, представляющих студенческое население.

Каким должно быть оптимальное распределение оценок?

Мы также можем предположить, что распределение/шкала оценок должна достигать двух целей: а) она должна давать информацию о понимании материала учащимся, б) она должна стимулировать учащихся к изучению материала.

Что касается а) с точки зрения теории информации, мы можем захотеть максимизировать информацию (энтропию) распределения оценок. Таким образом, мы бы выбрали шкалу, которая дает равномерное распределение. Однако на практике большинство учителей применяют пиковые распределения. Какая мотивация стоит за этим?

Будем надеяться, что все усвоили все на отлично, а оценки поднимутся в диапазоне 8-10 (да, люди делают ошибки).
Оптимальное распределение оценок — это пустое распределение. В оптимальном мире люди не мотивированы оценками, и они не обманывают себя или других относительно своих знаний или способностей. Таким образом, оценки не нужны.
@Boris Даже в оптимальном мире, который вы описываете, оценки все равно будут полезны. Студенты не обязательно могут измерить свой собственный уровень мастерства, оценки — это один из способов, с помощью которого преподаватели могут предоставить студентам отзывы о том, чего они достигли.
Поскольку некоторые комментарии казались несколько не относящимися к сути вопроса, я (надеюсь) разъяснил его.
Оптимальное распределение — это то, что честно отражает освоение студентами навыков по курсу. Это предполагает, что существует оценочная рубрика, которая точно измеряет относительное владение желаемыми навыками, что должно быть и имеет гораздо более высокий приоритет, чем любая другая проблема ОП. Подгонка данных под некое предвзятое распределение напоминает мошенничество в исследованиях.
Равномерное распределение, как правило, не будет информативным в отношении усвоения материала учащимися, потому что люди так себя не ведут. В отсутствие какой-либо другой информации я думаю, что нормальное распределение будет наиболее очевидным предположением.
@JessicaB Нормальное распределение определяется действительными числами, а не дискретным числом оценок. Я также не уверен, что вы подразумеваете под «люди так себя не ведут». Почему они «ведут себя» больше как один дистрибутив, чем как другой?
Если на самом деле «результаты тестов имеют только порядковый номер», то я бы сказал, что этот тест вообще не подходит для использования при выставлении оценок, поскольку он даже не может определить, достигли ли учащиеся базовых компетенций или знаний, необходимых для завершения курса. меньше оценивать их по тому, насколько хорошо они это сделали. Тест должен уметь различать на индивидуальном уровне , достигнут ли некоторый абсолютный уровень компетенции X или нет. Оценка — это второстепенная задача, которая может (при желании) выбрать конкретный уровень компетентности, подходящий для каждой оценки, чтобы показать относительные оценки, но это не может быть все относительно.
Надеюсь, все усвоили все в совершенстве — не бывает такого.
@JessicaB , потому что люди так себя не ведут — я действительно видел, как люди так себя ведут. Много лет назад я дал 40-балльный экзамен 120 студентам; распределение баллов было статистически равномерным. На каждый полуцелый балл от 4,5 до 38 такой балл был у одного-трех студентов. (Была также пара баллов ниже 4,5 и пара баллов выше 38.) Это было причудливо.
Возможно, вы захотите взглянуть на конструктивную валидность .
Спасибо, @StephanKolassa, кажется, это первое предложение со ссылкой на некоторую научную литературу. Я удивлен, сколько ответов до сих пор являются личными мнениями без научной основы / ссылки. В конце концов, это academia.SE!
@ ff524 Возможно, список учебных целей с отмеченными галочками, достигнутыми учащимся, был бы гораздо полезнее, чем плоская, полностью усредненная оценка.
Я добавил в свой ответ несколько ссылок на исследования в области образования. Наслаждаться :)
«Можно сказать, что учащийся с более высоким баллом добился лучшего усвоения курса, но двойной балл не означает, что он достиг в два раза большего, чем другой учащийся». Я думаю, что мера, вдвое превышающая другую, будет иметь гораздо больший доказательный вес, чем мера, которая немного выше (при условии, что она не близка к нулю).

Ответы (10)

Выставление оценок в соответствии с неким «оптимальным распределением» является ошибочным. Мы не хотим максимизировать энтропию оценок в конкретном курсе. Это не очень полезная мера «хорошего» набора оценок. Цитата из ответа Анонимного математика :

Строго говоря, энтропия Шеннона не обращает внимания на расстояние между оценками, а только на то, точно ли они равны. То есть у вас может быть высокая энтропия, если каждый учащийся получает несколько разные оценки, даже если все оценки очень близки друг к другу и, таким образом, бесполезны для различения учащихся.

(Обратите внимание, что это был ответ на вопрос об использовании энтропии экзаменационных баллов как показателя того, насколько хорошо экзамен позволяет различать разные уровни мастерства . энтропия.)

На самом деле мы хотим, чтобы оценки максимально точно отражали усвоение учащимися учебного материала . Если каждый учащийся курса достиг действительно превосходного усвоения материала курса, все они должны получить высокие баллы. Тогда кажется, что эта степень несет очень мало информации. Но на самом деле гораздо полезнее сказать, что все учащиеся в этом конкретном классе достигли высоких результатов и заслуживают 10/10, чем было бы максимизировать «информацию», содержащуюся в оценке, и дать некоторым учащимся 1/10, потому что их успеваемость была чуть менее отличной, чем самый высокий уровень мастерства, достигнутый студентом в этом году. Этот сценарий (когда все учащиеся получают отличные или очень хорошие оценки) даже не так уж необычен, какМайкл Ковингтон отмечает :

На продвинутых курсах вполне уместно, чтобы все учащиеся получали пятерки и четверки, потому что слабые учащиеся вообще не будут брать курс.

Для отдельного учащегося оценка должна зависеть от продемонстрированного этим учащимся усвоения материала курса и, желательно, совсем не (или как можно меньше) от других учащихся в классе.

Если вы настаиваете на том, чтобы думать об этом с точки зрения теории информации, то на самом деле мы хотим минимизировать расхождение Кульбака-Лейблера между распределением достижений учащихся и распределением оценок учащихся.

Если у вас нет информации об экзамене и о том, что он измеряет, вы не можете выставлять значимые оценки на основе этого экзаменационного балла. Если вы знаете об экзамене, вы можете выставлять значимые оценки на основе экзаменационных баллов, но не в соответствии с каким-либо оптимальным распределением — вы будете назначать баллы на основе того, сколько знаний от экзаменующихся должны знать для демонстрации различных уровней мастерства, а не на основе математическое преобразование оценок в некое предопределенное «оптимальное распределение».

Редактировать: предположим, что эти результаты тестов имеют только порядковое значение. Можно сказать, что учащийся с более высоким баллом добился лучшего усвоения курса, но двойной балл не означает, что он достиг в два раза большего, чем другой учащийся.

Ваши правки не изменят ответ; все еще не будет оптимального распределения. Если у меня в классе много отличников и я исключительно хорошо их обучаю, я поставлю много отличных оценок, независимо от того, как они оцениваются по отношению друг к другу. Если все мои ученики ужасны и плохо учатся, все они получат низкие оценки, даже если одному из них удастся набрать на несколько баллов больше, чем другому (хотя в этом случае я также присмотрюсь к классу, чтобы увидеть почему учащиеся так плохо учатся.) Если половина моего класса показывает отличные результаты, а другая половина не соответствует минимальным стандартам, я поставлю 50 % высоких оценок и 50 % неудовлетворительных оценок. Если их способности распределены нормально, то и их оценки будут такими же. Вы поняли идею.

Распределение оценок учащихся должно соответствовать распределению продемонстрированных достижений. Любое распределение оценок, которое не соответствует этому, определенно не является оптимальным.


Идея оценивания учащихся по некоторому заранее определенному распределению (любой формы) известна как «оценка по нормам». Для получения дополнительной информации об альтернативах выставлению оценок по нормам см.:

  • Сэдлер, Д. Ройс. «Интерпретации критериального оценивания и выставления оценок в высшем образовании». Оценка и оценка в высшем образовании 30.2 (2005): 175-194.
  • Авилес, Кристофер Б. «Оценка с помощью измерений, основанных на норме или критериях: кривая или не кривая, вот в чем вопрос». Образование в области социальной работы 20.5 (2001): 603-608.
  • Роуз, Лесли. «Оценка на основе норм в эпоху Карнеги: почему оценка на основе критериев больше соответствует текущим тенденциям в юридическом образовании и как юридическое письмо может проложить путь». Журнал Института юридического письма 17 (2011): 123.
  • Гаски, Томас Р. «Политики выставления оценок, противоречащие стандартам ... и как их исправить». Бюллетень NASSP 84.620 (2000): 20-29.

В них более подробно рассматриваются проблемы с выставлением оценок по нормам. Вы запросили распределение оценок, которое "информирует о понимании материала учащимся". Литература, которую я цитировал, объясняет, что чистая оценка по нормам неинформативна по этому поводу; он может только информировать об относительном понимании материала студентом по сравнению с другими в той же группе, сдавшими тот же экзамен. Другими словами (выделено мной):

Он может быть полезен в целях отбора (например, для распределения стипендии 5 лучшим студентам или дополнительного обучения для 5 наиболее отстающих), но дает мало информации о реальных способностях кандидатов.

Источник: Макалпайн, Мхайри. Принципы оценки. Центр CAA, Лутонский университет, 2002 г.

В середине 1990-х годов шведская система оценивания в средней школе была изменена с системы, основанной на нормах, на систему, основанную на критериях. Таким образом, стало возможным сравнить (для одной и той же группы населения) способность системы оценок, основанной на нормах, и системы оценок, основанной на критериях, предсказывать успехи в учебе.

Первая статья, посвященная этому шведскому набору данных, написана не на английском языке. (Cliffordson, C. (2004). De målrelaterade gymnasiebetygens prognosförmåga. [Прогнозная достоверность связанных с целью оценок в старших классах средней школы]. Pedagogisk Forskning i Sverige, 9(2), 129–140.) Однако в более поздней статье , автор описывает эти результаты следующим образом:

Клиффордсон (2004b) показал в исследовании достижений 1-го года обучения по программам магистра наук в области инженерии, что прогностическая достоверность CRIT-GPA была несколько выше, чем для NORM-GPA.

В этом более позднем исследовании Клиффордсон обнаружил (согласно более раннему исследованию)

несколько более высокая прогностическая валидность для CRIT-GPA, чем для NORM-GPA.

и это в различных дисциплинах,

Несмотря на различия как в дизайне, так и в целях, прогностическая эффективность оценок по критериям, по крайней мере, так же хороша или даже несколько выше, чем у оценок по нормам.

Подробнее см.:

Клиффордсон, Кристина. «Дифференциальное прогнозирование успеха обучения по академическим программам в шведском контексте: достоверность оценок и тестов как инструментов отбора для получения высшего образования». Образовательная оценка 13.1 (2008): 56–75.

Спасибо за полезную ссылку на другой вопрос. Если я правильно понимаю, то при одинаковой близости оценок учеников энтропия дает хоть какой-то ответ на вопрос а). Я, конечно, согласен с вами, что расхождение между баллами и достижениями в KL более значимо. Однако предполагается, что фактические достижения студента ненаблюдаемы. Теперь я заметил, что ответ на этот вопрос во многом зависит от предположений о свойствах экзамена.
@HRSE Не зная об экзамене и о том, что он измеряет, вы не можете ставить значимые оценки. Если вы знаете об экзамене, вы можете выставлять значимые оценки на основе экзаменационных баллов, но не в соответствии с каким-либо оптимальным распределением, то есть вы будете назначать баллы на основе того, сколько знаний должны знать экзаменующиеся, чтобы продемонстрировать различные уровни мастерства. , а не математическими ухищрениями.
Большой! Большое спасибо за все предостережения. Вопрос не имел смысла без дополнительных предположений на экзамене. Однако я не хочу заходить так далеко, чтобы утверждать, что учитель может «прочитать» уровни мастерства прямо из экзамена.
@HRSE Тем не менее, вы готовы зайти так далеко, чтобы сказать, что уровни успеваемости любой группы студентов, в любом высшем учебном заведении, в любом классе должны быть одинаково распределены с уровнями любой другой группы? Мне кажется, это гораздо больший скачок :)
Под «представителем студенческого населения» я, конечно, не подразумеваю «всех студентов по всему миру», иначе я бы так и написал. Единственное, что исключается, это то, что в одной выборке экзаменов я НЕ получаю только «отличников» (относительно рассматриваемой совокупности), а в другой выборке я получаю только «ужасных» студентов.
@HRSE Вы можете сделать мои примеры менее «экстремальными», и они все равно будут применяться. Просто проще написать «все отличники» и «все плохо учатся», чем перечислять сотни гипотетических учеников и их способности. Дело в том, что разные классы разные, разные группы учащихся разные, и нет оснований ожидать, что какие-то две группы будут иметь одинаковое распределение.
@HRSE, если вы предполагаете, что конкретная выборка экзаменов соответствует общему распределению «отлично» и «ужасно» студентов, это все равно не позволяет вам сделать вывод, что в этих обстоятельствах оценки могут быть одинаковыми. Экзаменационные оценки и проходные баллы коррелируют не только с характеристиками учащихся, но и, например, со сложностью курса. Система должна уметь оценивать ситуации, когда 100% студентов, сдающих конкретный экзамен, получают «хорошо» и ситуации, когда часть студентов на каком-то экзамене получают «неудовлетворительно» — два явно разных, несовместимых распределения оценок.
На продвинутых курсах вполне уместно, чтобы все учащиеся получали пятерки и четверки, потому что слабые учащиеся вообще не будут брать курс. Категорически не согласен. Не существует абсолютной шкалы мастерства, по которой баллы должны (или могут ) быть откалиброваны. Каждый класс обязательно откалиброван в соответствии с навыками и опытом студентов, которые его посещают. Совершенно правильно преподавать продвинутые классы так, чтобы некоторые ученики получали тройки и тройки, а у более слабых учеников, которые не берутся, не было абсолютно никаких шансов сдать экзамен.
Кроме того, я не читаю первоначальный вопрос как «Какое распределение следует использовать для выставления оценок?» а скорее «После того, как я поставил оценки, что полученное распределение баллов говорит мне об эффективности / точности экзамена / рубрики оценки?»
@JeffE Я думаю, дело было в том, что курс может иметь все A и B, и это один из примеров сценария, в котором это не было бы маловероятным, а не в том, что это всегда будет распределение оценок в продвинутом классе .
+1 за «Распределение оценок учащихся должно соответствовать распределению продемонстрированных достижений. Любое распределение оценок, которое не соответствует этому, определенно не является оптимальным».
Из предоставленной вами литературы я теперь вижу различие между оценкой на основе нормы и оценкой на основе критерия, и что оценка на основе критерия может быть лучше в случае, если экзамен дает нам информацию для выполнения оценки на основе критерия. Вопрос предполагает, что экзамен не соответствует этому. Таким образом, остается вопрос: если нам нужно использовать оценивание по нормам, каковы желательные свойства распределения оценок? Сказать, что оценка по критерию (хотя и невозможная) лучше, это явно уклониться от ответа на вопрос.
@HRSE, вы попросили распределение оценок, которое «информирует о понимании материала учащимся». Литература, которую я цитировал, объясняет, что чистая оценка по нормам неинформативна по этому поводу; он может только информировать об относительном понимании материала студентом по сравнению с другими в той же группе, сдавшими тот же экзамен. Оценки, относящиеся к распределению, не могут дать вам того, о чем вы просили, в описанной вами ситуации; вы просите о том, чего не существует.
@HRSE Я думаю, что ваше редактирование делает это совершенно другим вопросом. Если вы хотите узнать об оценке относительных способностей учащихся , возможно, вам следует задать новый вопрос в новом посте. (Было бы также полезно, если бы вы указали цель, для которой вы хотите знать относительные способности учащихся; разные системы оценивания, вероятно, будут «оптимальными» для разных целей.)
ну, поскольку исходный вопрос не включал «а)», но «а)» был добавлен после того, как вы это предложили, я думаю, можно уточнить, что имеются в виду относительные способности.
@HRSE Обычно считается неправильным этикетом редактировать вопрос таким образом, чтобы сделать недействительными существующие ответы.

Не пытаясь уклониться от вашего вопроса, чрезвычайно сложно количественно оценить влияние различных распределений оценок. Это делает невозможным поиск оптимального решения. Вы указываете 2 цели, что затрудняет оптимизацию. Кроме того, ваши цели не определены четко.

На первый взгляд, цель мотивации студентов кажется похвальной, но нам нужно быть осторожными с тем, что мы мотивируем. Мы не хотим мотивировать учащихся стремиться к более высоким оценкам (т. е. придираться к оценкам). Мы также не хотим продвигать беспощадную среду, в которой ученики пытаются улучшить свои оценки, саботируя однокурсников. Мы хотим мотивировать студентов как на индивидуальном, так и на групповом уровне, чтобы улучшить их понимание. Исследования в области образования ясно показывают, что внешние мотиваторы, такие как оценки, не способствуют тому типу обучения, к которому стремятся учителя.

Ваша вторая цель состоит в том, чтобы оценки были информативными. Но вы не определяете, кого вы пытаетесь информировать. Мы хотим, чтобы оценки информировали студентов об их уровне понимания, или мы хотим, чтобы оценки информировали потенциальных работодателей. Насколько я понимаю теорию образования, суммативное оценивание не является частью процесса обучения, в отличие от формирующего оценивания. Кроме того, неясно, полезны ли буквенные/числовые оценки для формативных оценок.

Мой (неподтвержденный) опыт показывает, что высокие оценки не дают полезного стимула, потому что цена ошибки очень высока. У студентов должно быть пространство, чтобы учиться чему-то с течением времени и в процессе оценки (за исключением, конечно, оценок в самом конце курса) и извлекать из этого пользу.
Помимо «кто», также важно, «какую» информацию вы пытаетесь передать. Ожидаете ли вы, что люди будут использовать оценку, чтобы оценить способность учащегося выполнять работу, оценить способность учащегося хорошо успевать на следующем курсе в последовательности, выбрать 10 лучших учащихся для награждения, определить, какие учащиеся должны иметь право на работу в качестве ассистента при следующем предложении курса и т. д.
Без обид, но я понятия не имею, как это вообще приближается к ответу на вопрос. Да, для учителя полезно использовать обратную связь от учеников. Вы хотите сказать, что учителя должны учить без оценок? Ответ настолько расплывчатый, что ваш ответ может означать что угодно. Просто интересно, что вы ответили и почему ОП поставил галочку - мне кажется, что я что-то упускаю.
@blankip Я говорю, что проблема некорректна и, следовательно, нет единственного оптимального решения.
Я думаю, что, вероятно, существует базовый метод получения оптимальной системы оценок почти во всех случаях. Я занимался LMS в течение 15 лет и видел действительно хорошие системы оценок для очень сложных вещей. Хорошие немного плавные, а иногда и сложные. Я видел пошаговые тесты, в которых люди отвечают на вопросы на определенном уровне владения языком, что является невероятно точным, но требует очень много времени для настройки. Также нет ничего лучше, чем страх, чтобы мотивировать человека.

Оптимальное распределение оценок выглядит точно так же, как распределение способностей в той области, которой обладают члены вашего класса.

На самом деле это не то, что вы можете легко или точно измерить, но это ваша цель.

Если бы вы могли следить за своими учениками и оценивать их успеваемость в более позднем возрасте по нескольким вехам, вы, вероятно, могли бы оценить информацию snr в своей оценке. Вот где вы бы применили эти концепции со смыслом.

Однако это не имеет ничего общего с формой распределения оценок .

Вы действительно не можете принять какую-либо конкретную форму как действительную или нет, если вы не знаете распределение населения.

О, я согласен. Я должен перефразировать это.
+1. Хотя самое последнее предложение, простите, просто неправильное. Нет никакой причины, по которой большая выборка из неопределенного распределения должна превратиться в нормальное распределение. Если вы имеете в виду стандартные статистические результаты, которые подразумевают асимптотическую нормальность (центральные предельные теоремы и т. д.), они включают в себя средние значения большого количества точек данных, поэтому они здесь неприменимы.
Нет, ты прав. Я сильно пропустил формулировку, я просто не нашел времени, чтобы исправить это.
Я отказался от своей неудачной попытки. Я пытался объяснить, что вам нужно знание населения, чтобы делать заявления о любом ожидаемом выборочном распределении. Без него лучше, правда. Может быть, я придумаю улучшение и поставлю его обратно.

Несколько лет назад я участвовал в оценке вступительных экзаменов в известный университет. Наша цель при выставлении оценок состояла в том, чтобы обеспечить максимальную дифференциацию: поскольку цель экзамена состояла в том, чтобы найти лучших кандидатов, признавая, что для некоторых часть экзамена по физике будет иметь лишь ограниченный вес, меня попросили убедиться, что мои оценка была достаточно мягкой (это был ОЧЕНЬ сложный экзамен), поэтому средний балл был 20/40; это требовало частичного зачета частично правильных ответов и на самом деле давало баллы от 2 до 39. Да, та работа, набравшая 39/40 баллов на действительно сложном экзамене, — это то, что я помню 30 лет спустя...

Я хочу сказать следующее: «оценки» могут означать разные вещи для разных целевых групп. Вопросы, которые можно задать:

  1. Достаточно ли подготовлен студент для прохождения «следующего» курса?
  2. Заслуживает ли студент особого признания (стипендии и т. д.)?
  3. Имеет ли студент право на какую-либо должность с «ограниченным доступом» (работа, поступление в аспирантуру и т. д.)

Первый балл должен быть «объективным», без учета распределения. То есть экзамен должен строиться так, чтобы проверять необходимые знания, а наличие у человека таких знаний или их отсутствие не должно зависеть от оценок всех остальных студентов. Изучение распределения может оказаться полезным для инструктора (вы сдаете «хорошие» экзамены?) — но в конечном итоге задание 10 сложных вопросов, получение в среднем 4 хороших ответов и решение установить проходной балл на уровне 4+ не гарантирует, что люди, которые сдать экзамен, усвоив материал.

Второй пункт меньше зависит от распределения и больше от «отсечки». Возможно, есть 5 стипендий: вы присуждаете их 5 лучшим людям. Если вы суммируете несколько экзаменов, вы берете их рейтинги по всем экзаменам (возможно, исключая N выбросов), чтобы получить окончательный рейтинг.

Последний пункт — единственный, где дистрибутив может быть полезен.

К сожалению, большинство схем оценивания не следуют подходу здравого смысла, который я описываю...

+1 это точно. ОП спросил о системе оценок, которая «информирует о понимании материала учащимся», что кажется абсолютным (а не относительным) показателем. Учитывая сценарий, описанный в OP, не похоже, что система оценок, относящаяся к любому типу распределения, может передать эту информацию.
Это отличное наблюдение, что разные цели тестирования могут иметь разные цели для дифференциации. Бьюсь об заклад, многие из нас прочитали подобный вопрос, предполагая наш собственный обычный вариант использования. ОП должен уточнить ответ, (среди прочего) объяснив свой вариант использования.

Эдвардс Деминг, гуру движения за качество, считал, что должно быть только три результата: «Студент усваивает материал», что является целью курса и главной обязанностью преподавателя, «Студент показывает исключительный уровень владения» (те, которые он расцениваются как выбросы и будут считаться исключительными достижениями) и «Студент не усвоил материал» (выбросы на другом конце). Учащимся из первой группы он ставил пятерку (это было подавляющее большинство), ученики из второй группы получали пятерку с плюсом, а ученики из третьей группы получали пятерку.

Университет переименовывает их в B, A и C. «Деминг сказал: «Обучение не является обязательным… как и выживание».
Одна проблема с этим (среди прочего) заключается в том, что если это единственные официальные записи (3 отдельные точки), статистический последующий анализ ослабляется для любых целей. Например: andrewgelman.com/2012/11/12/…
Какой статистический анализ вам нужен, кроме процента сдавших экзамены и т. д.? Первоначальный вопрос заключался в том, чтобы поставить телегу впереди лошади, предполагая, что в первую очередь существует оптимальное распределение оценок. Мне (или, кажется, фф524 или StrongBad) непонятно, что там. Вопрос ОП немного напоминает мне оптимальную длину мужских ног. Ответ Эйба Линкольна? «Достаточно долго, чтобы достичь земли».
Например: регрессии, корреляции и прогнозы между обязательными курсами, пост-обязательными курсами, специальными программами помощи и репетиторством, квалификациями при выходе из программы, последующими результатами, такими как выпускник или трудоустройство, и т. д. и т. д. Все, что может быть исследовано при оценке программы или стипендия преподавания и обучения.

Я согласен с другими ответами: нет смысла менять вашу парадигму оценки апостериори, пока вы не получите какое-то распространение.

Однако может быть полезно проверить свои предположения, сформулировав свои ожидания, прежде чем изучать фактическую статистику. Каким должно быть общее распределение? Какое распределение должны иметь отдельные проблемы? Должен ли определенный подмножество задач быть доступным почти всем учащимся? Как вы думаете, сколько задач сможет решить сильный, средний и слабый ученик за отведенное время? Коррелируют ли результаты по некоторым задачам сильнее, чем должны, т. е. действительно ли они проверяют разные навыки?

Затем вы можете проверить, соответствуют ли данные вашим ожиданиям. Если их нет, вы сделали что-то не так. Вот два примера.

Мультимодальные перевозки

Опыт подсказывает, что вы, вероятно, получите что-то вроде кривой Белла, если не происходит ничего необычного. Другими словами, если вы не получили такую ​​кривую, может потребоваться дальнейшее расследование¹. В качестве конкретного примера, если вы получаете

Мультимодальная гистограмма

вы хотите найти критерий, разделяющий участников на две (или более) группы, которые объясняют два удара:

Объяснение: две группы студентов

Возможными критериями (которые вы, вероятно, можете проверить) являются курс обучения, участие в упражнениях (или какой-либо другой деятельности, связанной с курсом), пол и так далее. Затем вы можете принять меры, чтобы ваш курс работал одинаково хорошо для всех.

Сложность проблемы отключена

То, что вы ожидаете увидеть, это:

введите описание изображения здесь

То есть, большинство студентов хорошо решают (очень) легкие задачи (они должны составлять основу для сдачи экзамена, если так), средние задачи распределяются нормально (они определяют все между сдачей и B), и лишь немногие студенты решают сложные задачи (эти которые, вероятно, получат A).

Если вы видите большие отклонения от ваших ожиданий, возможно, вы промахнулись при формулировании проблемы (что может повлиять на ваши решения об оценке) и/или ваш курс не продвигал необходимые навыки, как вы думали.


  1. Другое направление не работает, т.е. могут быть проблемы, которые вы не видите на гистограмме.
Могу я задать не относящийся к делу вопрос: как генерировались эти сюжеты? Мне они очень нравятся.
@LeeDavidChungLin IIRC, нарисовано на моем Galaxy Note 10.1 с помощью Squid.
о, как я раньше не узнал об этом замечательном приложении, ха. Спасибо.

На ваш вопрос действительно невозможно ответить, потому что вы не даете нам измеримых целей ваших распределений оценок.

Какая-то кривая нормального распределения (пример № 1)

Это явно ошибочно, потому что не указывает ни на знание курса, ни на успехи или недостатки профессора. Если бы вы были действительно хорошим учителем и у вас были бы действительно хорошие ученики, подход «кривой нормального распределения» означал бы, что ученики, которые действительно хорошо усвоили материал предмета, могли бы получить пятерку.

Скажем так, это довольно простой урок, а вы невероятный учитель. Оценки в процентах составляют 88-100%. Получают ли 88 % студентов пятерки, 90 % студентов получают двойки и так далее? И если да, то зачем кому-то, у кого есть мозги, ходить на такие занятия? Мне придется полагаться на то, что другие глупее, чтобы получить лучшую оценку? Я бы подумал, что если бы все получили 100%, кроме меня, а я получил бы 97%? Это не имеет никакого смысла. (И я знаю, что использую %s произвольно, поскольку многие классы не оцениваются так, а просто использую это для простого примера.

Какая-то кривая нормального распределения (пример № 2)

Ну, такая же ситуация, но на этот раз класс не является «нормальным» классом. Это в университете, где есть 50 вакансий в инженерной школе, и 1000 детей посещают занятия, чтобы поступить, и они посещают определенное количество занятий. Хорошо, тогда мы могли бы захотеть оценить, используя какое-то распределение колоколов, потому что оно сравнивает студентов, а не их освоение курса. После того, как вы сделаете это для нескольких курсов, вы, вероятно, сможете отсеять около 50 студентов.

Другие модели распространения

Проблема с заявлением о том, что при наличии большого населения у вас должно быть определенное количество определенных оценок, на самом деле, как упоминалось выше, заключается в сравнении студентов друг с другом и имеет очень мало общего с их знанием материала курса.

Даже с простой моделью кривой, в которой вы даете лучшему ученику 100% и оцениваете его, вы можете столкнуться с некоторыми серьезными проблемами, имея плохую визуализацию оценок. Если бы вы были ужасным учителем, а ученики плохо успевали, лучший ученик мог бы иметь 80%. Вы просто увеличиваете всех на 20% и чувствуете себя при этом хорошо?

Кроме того, когда вы делаете подобные вещи, как это отражается на вашей стратегии оценивания? Например, что, если первая половина ваших тестов относительно проста, и каждый из них работает на уровне A. Потом следующая половина будет очень-очень тяжелой. Человек, получивший 80%, получает 100%. Но тогда человек, который хорошо понял первую половину, но затем пропустил все на более сложном материале... он все еще получает тройку?

Что вы делаете?

Если ваш курс является частью основной части обучения и проходит большую часть учащихся, вы хотите обсудить с вашей школой, что они ожидают от своих учеников. Возможно, посмотрите на исторические записи для подобных классов. Я уверен, что курс «Введение в английский» имеет разные баллы в университетах высшего уровня по сравнению с государственными колледжами.

Оттуда установите цели для студентов и дайте им знать, что ожидается. Если все делают то, что от них ожидают, и усваивают материал, все получают пятерки. Если никто не приходит на ваши занятия и ничему не учится, все получают пятерки. Сложность заключается в корректировке класса, если вы чувствуете, что шкала оценок слишком проста или слишком сложна. Но не должно быть фиксированного распределения. Если мы говорим по английскому языку 101 в Гарварде, мы видим, по крайней мере, 70-80% А.

Для класса более высокого уровня большая часть распределения выходит из окна. Если вы проводите урок естествознания в определенной области, вы должны четко выставлять оценки в соответствии с тем, насколько хорошо учащийся усвоил концепции и материалы. Там оценка должна указывать на то, насколько хорошо они могут рассчитывать на работу, если они перейдут на следующий уровень. Если бы вы преподавали квантовую физику и у вас был бы класс из 10 человек, который был абсолютно ниже среднего, вы бы просто поставили несколько пятерок и четверок? Затем, когда они сдают Quantum Physics II, следующий профессор говорит: «Какого черта, эти студенты не готовы к этому предмету».

Отличный ответ, и я полностью согласен. Единственное, я боюсь, что ваши примеры процедур оценки сумасшедших на самом деле широко применяются, возможно, даже в большинстве случаев, и даже очень рекомендуются в некоторой литературе.

Правильное распределение — это то, к которому привыкли учащиеся.

Я бы оспорил ваше предположение, что больше энтропии всегда лучше, чем меньше.

Давайте представим учащегося, который обычно получает оценку B с оценками от A до D, а также с F и различными плюсами и минусами, и есть кривая нормального распределения, концентрирующая результаты класса вокруг C+.

Они довольны оценкой B, они довольны оценкой B+ и так далее. Они в общих чертах знают, где они сидят по отношению к своей когорте.

Затем профессор Энтропи решает давать буквы до конца W, при этом F по-прежнему является неудачным (F - самая низкая оценка, а W - вторая самая низкая) и +/- все еще используется. Колокольное изгибание было заменено плоским распределением. Студент получает H+ за свою работу. Это имеет гораздо большую энтропию, но почти ничего не говорит учащемуся о том, насколько хорошо он справился с тем, насколько хорошо он должен был учиться, или о том, как он справился с другими предметами (C+, B- и A- в старой системе). Если учащийся хочет сравнить свою оценку с другими оценками, которые он получил, ему придется преобразовать оценку, которую вы ему поставили, в то же распределение, к которому он привык.

Вы хотите сравнить студентов друг с другом. Они хотят сравнить себя с теоретической личностью, которая училась немного усерднее, или ДЕЙСТВИТЕЛЬНО нашла время, чтобы пойти на эту вечеринку, или вернулась к предмету ABC вместо XYZ, на который они недавно переключились.

Вы целевая аудитория для оценок, или студенты??

Приносим извинения за отсутствие цитирования, но это настолько же оспаривает ваши предпосылки/предположения, сколько и является ответом.

Я тоже оспариваю предположения ОП, но я также не согласен с этим ответом. Предположительно, если профессор Энтропи объяснит студентам, как рассчитываются оценки, они будут так же полезны для студентов, как и для всех остальных. (Полезны ли они для кого-либо, для студентов или нет, это, конечно, совершенно другой вопрос.) Также не ясно, что помощь студенту «сравнить его оценку с другими оценками, которые он получил», является предполагаемым использованием оценок — я не понимаю. Не думаю, что это всегда нужно учитывать при определении того, что является «хорошей» системой оценивания.

Исследовательской специализацией моего наставника на курсе бакалавриата была статистическая механика. Он написал программу «нормализации оценок» для моего университетского курса, которым была физика. Он брал у студентов необработанные профессии и выдавал итоговую оценку в Великобритании (1-я, 2-я верхняя, 2-я нижняя, 3-я, неудовлетворительно). Он сказал мне, что идеализированное распределение должно быть нормальным распределением; студенты будут рандомизированы вокруг среднего значения с более или менее способными, прилагающими больше или меньше усилий, с более или менее отвлекающими факторами того, что они старшекурсники (также известные как вечеринки), и поскольку эти факторы были случайными [*].

Мой преподаватель пожаловался, что проблема в том, что фактическое распределение оценок на типичных экзаменах больше похоже на перевернутое нормальное распределение; бимодальный с группой людей, проваливающих экзамены, группой людей, сдающих экзамены, и очень немногими людьми, сдающими «средний балл». Во многом это произошло из-за того, что экзамены не идеальны, и их трудно правильно подать; слишком сложно, и люди проваливаются, и слишком легко, и слишком много людей выигрывают. Таким образом, цель программного обеспечения, которое он написал, заключалась в том, чтобы попытаться перенормировать индивидуальные экзамены по сравнению с контингентом студентов, сдающих их. Вместо идеальных экзаменов, оценивающих контингент студентов, несовершенные экзамены могут быть нормализованы по отношению к контингенту студентов. Он был очень умным ученым, который десятилетиями работал педагогом, поэтому я подозреваю, что его интуиция и подход были здравыми.

[*] Из двух самых ярких парней, которых я все еще знаю два десятилетия спустя, один получил тройное 1-е место и медаль колледжа, а другой был исключен из-за чрезмерной вечеринки; друг, который завалил своих студентов-физиков, недавно занял должность профессора в респектабельном университете со специализацией в области исследований международного развития.

Независимо от того, насколько блестящим был этот наставник в механике, как специалист по статистике образования я бы назвал такое отношение совершенно уродливым. Целью курсов (STEM) должно быть овладение определенным набором навыков, и бимодальное распределение проливает яркий и последовательный свет на тот простой факт, что некоторые из них прошли, а некоторые потерпели неудачу. Это не потому, что «тесты трудно писать»; это бессвязная BS. Искажение фактических данных, чтобы они соответствовали какой-то предвзятой гипотезе, является своего рода исследовательским мошенничеством, и ему лучше знать.
Если ваше типичное распределение баллов является бимодальным, то это логически не может быть связано с тем, что тест является «слишком простым» или «слишком сложным» — любой из них просто сдвинет распределение, а не создаст несколько режимов. А почему "должны" нормально распределяться оценки? Здесь нет закона больших чисел, который я мог бы различить.

Философия оценки моего профессора философии заключалась в том, что по определению большинство людей средние (т.е. C).

Студенты спросили, ставит ли он оценки по кривой, и он ответил: Да, если мои оценки не падают на кривую нормального распределения, когда основная часть класса получает тройки, несколько пятерок и четверок и, может быть, пару пятерок и пятерок, тогда я либо сделал мои тесты слишком простыми (оценки смещены в сторону A), либо слишком сложными (оценки смещены в сторону F).

Я полагаю, это зависит от того, пытаетесь ли вы подтолкнуть нескольких своих учеников к успеху или пытаетесь помочь как можно большему количеству учеников получить хорошие оценки.

«тогда я сделал свои тесты либо слишком простыми (оценки смещены в сторону A), либо слишком сложными (оценки смещены в сторону F)». - Или мое преподавание было более/менее эффективным в этом семестре, или приемная комиссия изменила свои стандарты и принимает более/менее подготовленных студентов, или недавно доступный набор видеолекций онлайн теперь позволяет студентам усвоить материал, несмотря на мои плохие преподавания, или инструктор предыдущего курса в последовательности затронул много «моего» материала, или инструктор предыдущего курса в последовательности ввел неправильное представление, которое я не исправил, или...
На самом деле я обнаружил, что согласен с его подходом, но, вероятно, поэтому я был одним из 50%, которые не бросили его курс. Я в основном получал четверки на тестах. Я чувствую, что заслужил эту оценку — и я гораздо больше горжусь пятеркой, которую я получил в этом классе (он предложил полную буквенную оценку за дополнительный балл) из-за усилий, которые я приложил к этому. Я также узнал намного больше о том, как писать и спорить. Забавная ирония в том, что я получил ужасные оценки за тесты с несколькими вариантами ответов на уроке истории. Обычно потому, что она задавала глупые вопросы вроде «Что самое лучшее/лучшее/<родственник>…».
Я мог бы слушать лекции и читать и утверждать, что любой из ответов был бы самым или лучшим, если бы не было чего-то, что было просто неправильно. Как Авраам Линколон в качестве генерала афинской армии или что-то в этом роде.
Вы чувствуете, что заслужили свою оценку благодаря приложенным усилиям, но имейте в виду, что с его оценочной стратегией вы могли бы получить такую ​​же пятерку, если бы не приложили усилий, но остальные ученики приложили даже меньше.
Это профессор философии, который (как и многие во многих дисциплинах) не разбирается в статистике, которая стоит дерьма. Интересно, как бы отреагировали, если бы указали на то, что студентов активно поощряют саботировать других студентов в этой системе, потому что тогда масштабирование повысит их собственные оценки при тех же результатах? Я бы сказал, что эта система неэтична во многих отношениях.