Исследователи образования, должно быть, думали об этом, поэтому я надеюсь найти здесь некоторые направления. Предположим, что я оцениваю учащихся по шкале от 1 до 10. Если у меня нет предварительных знаний о способностях учащихся, но я получил их результаты тестов (скажем, от 1 до 100).
Предположим, что эти результаты тестов имеют только порядковый номер. Можно сказать, что учащийся с более высоким баллом добился лучшего усвоения курса, но двойной балл не означает, что он достиг в два раза большего, чем другой учащийся. Мы также можем предположить, что экзамен сдавало (статистически) большое количество студентов, представляющих студенческое население.
Каким должно быть оптимальное распределение оценок?
Мы также можем предположить, что распределение/шкала оценок должна достигать двух целей: а) она должна давать информацию о понимании материала учащимся, б) она должна стимулировать учащихся к изучению материала.
Что касается а) с точки зрения теории информации, мы можем захотеть максимизировать информацию (энтропию) распределения оценок. Таким образом, мы бы выбрали шкалу, которая дает равномерное распределение. Однако на практике большинство учителей применяют пиковые распределения. Какая мотивация стоит за этим?
Выставление оценок в соответствии с неким «оптимальным распределением» является ошибочным. Мы не хотим максимизировать энтропию оценок в конкретном курсе. Это не очень полезная мера «хорошего» набора оценок. Цитата из ответа Анонимного математика :
Строго говоря, энтропия Шеннона не обращает внимания на расстояние между оценками, а только на то, точно ли они равны. То есть у вас может быть высокая энтропия, если каждый учащийся получает несколько разные оценки, даже если все оценки очень близки друг к другу и, таким образом, бесполезны для различения учащихся.
(Обратите внимание, что это был ответ на вопрос об использовании энтропии экзаменационных баллов как показателя того, насколько хорошо экзамен позволяет различать разные уровни мастерства . энтропия.)
На самом деле мы хотим, чтобы оценки максимально точно отражали усвоение учащимися учебного материала . Если каждый учащийся курса достиг действительно превосходного усвоения материала курса, все они должны получить высокие баллы. Тогда кажется, что эта степень несет очень мало информации. Но на самом деле гораздо полезнее сказать, что все учащиеся в этом конкретном классе достигли высоких результатов и заслуживают 10/10, чем было бы максимизировать «информацию», содержащуюся в оценке, и дать некоторым учащимся 1/10, потому что их успеваемость была чуть менее отличной, чем самый высокий уровень мастерства, достигнутый студентом в этом году. Этот сценарий (когда все учащиеся получают отличные или очень хорошие оценки) даже не так уж необычен, какМайкл Ковингтон отмечает :
На продвинутых курсах вполне уместно, чтобы все учащиеся получали пятерки и четверки, потому что слабые учащиеся вообще не будут брать курс.
Для отдельного учащегося оценка должна зависеть от продемонстрированного этим учащимся усвоения материала курса и, желательно, совсем не (или как можно меньше) от других учащихся в классе.
Если вы настаиваете на том, чтобы думать об этом с точки зрения теории информации, то на самом деле мы хотим минимизировать расхождение Кульбака-Лейблера между распределением достижений учащихся и распределением оценок учащихся.
Если у вас нет информации об экзамене и о том, что он измеряет, вы не можете выставлять значимые оценки на основе этого экзаменационного балла. Если вы знаете об экзамене, вы можете выставлять значимые оценки на основе экзаменационных баллов, но не в соответствии с каким-либо оптимальным распределением — вы будете назначать баллы на основе того, сколько знаний от экзаменующихся должны знать для демонстрации различных уровней мастерства, а не на основе математическое преобразование оценок в некое предопределенное «оптимальное распределение».
Редактировать: предположим, что эти результаты тестов имеют только порядковое значение. Можно сказать, что учащийся с более высоким баллом добился лучшего усвоения курса, но двойной балл не означает, что он достиг в два раза большего, чем другой учащийся.
Ваши правки не изменят ответ; все еще не будет оптимального распределения. Если у меня в классе много отличников и я исключительно хорошо их обучаю, я поставлю много отличных оценок, независимо от того, как они оцениваются по отношению друг к другу. Если все мои ученики ужасны и плохо учатся, все они получат низкие оценки, даже если одному из них удастся набрать на несколько баллов больше, чем другому (хотя в этом случае я также присмотрюсь к классу, чтобы увидеть почему учащиеся так плохо учатся.) Если половина моего класса показывает отличные результаты, а другая половина не соответствует минимальным стандартам, я поставлю 50 % высоких оценок и 50 % неудовлетворительных оценок. Если их способности распределены нормально, то и их оценки будут такими же. Вы поняли идею.
Распределение оценок учащихся должно соответствовать распределению продемонстрированных достижений. Любое распределение оценок, которое не соответствует этому, определенно не является оптимальным.
Идея оценивания учащихся по некоторому заранее определенному распределению (любой формы) известна как «оценка по нормам». Для получения дополнительной информации об альтернативах выставлению оценок по нормам см.:
В них более подробно рассматриваются проблемы с выставлением оценок по нормам. Вы запросили распределение оценок, которое "информирует о понимании материала учащимся". Литература, которую я цитировал, объясняет, что чистая оценка по нормам неинформативна по этому поводу; он может только информировать об относительном понимании материала студентом по сравнению с другими в той же группе, сдавшими тот же экзамен. Другими словами (выделено мной):
Он может быть полезен в целях отбора (например, для распределения стипендии 5 лучшим студентам или дополнительного обучения для 5 наиболее отстающих), но дает мало информации о реальных способностях кандидатов.
Источник: Макалпайн, Мхайри. Принципы оценки. Центр CAA, Лутонский университет, 2002 г.
В середине 1990-х годов шведская система оценивания в средней школе была изменена с системы, основанной на нормах, на систему, основанную на критериях. Таким образом, стало возможным сравнить (для одной и той же группы населения) способность системы оценок, основанной на нормах, и системы оценок, основанной на критериях, предсказывать успехи в учебе.
Первая статья, посвященная этому шведскому набору данных, написана не на английском языке. (Cliffordson, C. (2004). De målrelaterade gymnasiebetygens prognosförmåga. [Прогнозная достоверность связанных с целью оценок в старших классах средней школы]. Pedagogisk Forskning i Sverige, 9(2), 129–140.) Однако в более поздней статье , автор описывает эти результаты следующим образом:
Клиффордсон (2004b) показал в исследовании достижений 1-го года обучения по программам магистра наук в области инженерии, что прогностическая достоверность CRIT-GPA была несколько выше, чем для NORM-GPA.
В этом более позднем исследовании Клиффордсон обнаружил (согласно более раннему исследованию)
несколько более высокая прогностическая валидность для CRIT-GPA, чем для NORM-GPA.
и это в различных дисциплинах,
Несмотря на различия как в дизайне, так и в целях, прогностическая эффективность оценок по критериям, по крайней мере, так же хороша или даже несколько выше, чем у оценок по нормам.
Подробнее см.:
Клиффордсон, Кристина. «Дифференциальное прогнозирование успеха обучения по академическим программам в шведском контексте: достоверность оценок и тестов как инструментов отбора для получения высшего образования». Образовательная оценка 13.1 (2008): 56–75.
Не пытаясь уклониться от вашего вопроса, чрезвычайно сложно количественно оценить влияние различных распределений оценок. Это делает невозможным поиск оптимального решения. Вы указываете 2 цели, что затрудняет оптимизацию. Кроме того, ваши цели не определены четко.
На первый взгляд, цель мотивации студентов кажется похвальной, но нам нужно быть осторожными с тем, что мы мотивируем. Мы не хотим мотивировать учащихся стремиться к более высоким оценкам (т. е. придираться к оценкам). Мы также не хотим продвигать беспощадную среду, в которой ученики пытаются улучшить свои оценки, саботируя однокурсников. Мы хотим мотивировать студентов как на индивидуальном, так и на групповом уровне, чтобы улучшить их понимание. Исследования в области образования ясно показывают, что внешние мотиваторы, такие как оценки, не способствуют тому типу обучения, к которому стремятся учителя.
Ваша вторая цель состоит в том, чтобы оценки были информативными. Но вы не определяете, кого вы пытаетесь информировать. Мы хотим, чтобы оценки информировали студентов об их уровне понимания, или мы хотим, чтобы оценки информировали потенциальных работодателей. Насколько я понимаю теорию образования, суммативное оценивание не является частью процесса обучения, в отличие от формирующего оценивания. Кроме того, неясно, полезны ли буквенные/числовые оценки для формативных оценок.
Оптимальное распределение оценок выглядит точно так же, как распределение способностей в той области, которой обладают члены вашего класса.
На самом деле это не то, что вы можете легко или точно измерить, но это ваша цель.
Если бы вы могли следить за своими учениками и оценивать их успеваемость в более позднем возрасте по нескольким вехам, вы, вероятно, могли бы оценить информацию snr в своей оценке. Вот где вы бы применили эти концепции со смыслом.
Однако это не имеет ничего общего с формой распределения оценок .
Вы действительно не можете принять какую-либо конкретную форму как действительную или нет, если вы не знаете распределение населения.
Несколько лет назад я участвовал в оценке вступительных экзаменов в известный университет. Наша цель при выставлении оценок состояла в том, чтобы обеспечить максимальную дифференциацию: поскольку цель экзамена состояла в том, чтобы найти лучших кандидатов, признавая, что для некоторых часть экзамена по физике будет иметь лишь ограниченный вес, меня попросили убедиться, что мои оценка была достаточно мягкой (это был ОЧЕНЬ сложный экзамен), поэтому средний балл был 20/40; это требовало частичного зачета частично правильных ответов и на самом деле давало баллы от 2 до 39. Да, та работа, набравшая 39/40 баллов на действительно сложном экзамене, — это то, что я помню 30 лет спустя...
Я хочу сказать следующее: «оценки» могут означать разные вещи для разных целевых групп. Вопросы, которые можно задать:
Первый балл должен быть «объективным», без учета распределения. То есть экзамен должен строиться так, чтобы проверять необходимые знания, а наличие у человека таких знаний или их отсутствие не должно зависеть от оценок всех остальных студентов. Изучение распределения может оказаться полезным для инструктора (вы сдаете «хорошие» экзамены?) — но в конечном итоге задание 10 сложных вопросов, получение в среднем 4 хороших ответов и решение установить проходной балл на уровне 4+ не гарантирует, что люди, которые сдать экзамен, усвоив материал.
Второй пункт меньше зависит от распределения и больше от «отсечки». Возможно, есть 5 стипендий: вы присуждаете их 5 лучшим людям. Если вы суммируете несколько экзаменов, вы берете их рейтинги по всем экзаменам (возможно, исключая N выбросов), чтобы получить окончательный рейтинг.
Последний пункт — единственный, где дистрибутив может быть полезен.
К сожалению, большинство схем оценивания не следуют подходу здравого смысла, который я описываю...
Эдвардс Деминг, гуру движения за качество, считал, что должно быть только три результата: «Студент усваивает материал», что является целью курса и главной обязанностью преподавателя, «Студент показывает исключительный уровень владения» (те, которые он расцениваются как выбросы и будут считаться исключительными достижениями) и «Студент не усвоил материал» (выбросы на другом конце). Учащимся из первой группы он ставил пятерку (это было подавляющее большинство), ученики из второй группы получали пятерку с плюсом, а ученики из третьей группы получали пятерку.
Я согласен с другими ответами: нет смысла менять вашу парадигму оценки апостериори, пока вы не получите какое-то распространение.
Однако может быть полезно проверить свои предположения, сформулировав свои ожидания, прежде чем изучать фактическую статистику. Каким должно быть общее распределение? Какое распределение должны иметь отдельные проблемы? Должен ли определенный подмножество задач быть доступным почти всем учащимся? Как вы думаете, сколько задач сможет решить сильный, средний и слабый ученик за отведенное время? Коррелируют ли результаты по некоторым задачам сильнее, чем должны, т. е. действительно ли они проверяют разные навыки?
Затем вы можете проверить, соответствуют ли данные вашим ожиданиям. Если их нет, вы сделали что-то не так. Вот два примера.
Опыт подсказывает, что вы, вероятно, получите что-то вроде кривой Белла, если не происходит ничего необычного. Другими словами, если вы не получили такую кривую, может потребоваться дальнейшее расследование¹. В качестве конкретного примера, если вы получаете
вы хотите найти критерий, разделяющий участников на две (или более) группы, которые объясняют два удара:
Возможными критериями (которые вы, вероятно, можете проверить) являются курс обучения, участие в упражнениях (или какой-либо другой деятельности, связанной с курсом), пол и так далее. Затем вы можете принять меры, чтобы ваш курс работал одинаково хорошо для всех.
То, что вы ожидаете увидеть, это:
То есть, большинство студентов хорошо решают (очень) легкие задачи (они должны составлять основу для сдачи экзамена, если так), средние задачи распределяются нормально (они определяют все между сдачей и B), и лишь немногие студенты решают сложные задачи (эти которые, вероятно, получат A).
Если вы видите большие отклонения от ваших ожиданий, возможно, вы промахнулись при формулировании проблемы (что может повлиять на ваши решения об оценке) и/или ваш курс не продвигал необходимые навыки, как вы думали.
На ваш вопрос действительно невозможно ответить, потому что вы не даете нам измеримых целей ваших распределений оценок.
Какая-то кривая нормального распределения (пример № 1)
Это явно ошибочно, потому что не указывает ни на знание курса, ни на успехи или недостатки профессора. Если бы вы были действительно хорошим учителем и у вас были бы действительно хорошие ученики, подход «кривой нормального распределения» означал бы, что ученики, которые действительно хорошо усвоили материал предмета, могли бы получить пятерку.
Скажем так, это довольно простой урок, а вы невероятный учитель. Оценки в процентах составляют 88-100%. Получают ли 88 % студентов пятерки, 90 % студентов получают двойки и так далее? И если да, то зачем кому-то, у кого есть мозги, ходить на такие занятия? Мне придется полагаться на то, что другие глупее, чтобы получить лучшую оценку? Я бы подумал, что если бы все получили 100%, кроме меня, а я получил бы 97%? Это не имеет никакого смысла. (И я знаю, что использую %s произвольно, поскольку многие классы не оцениваются так, а просто использую это для простого примера.
Какая-то кривая нормального распределения (пример № 2)
Ну, такая же ситуация, но на этот раз класс не является «нормальным» классом. Это в университете, где есть 50 вакансий в инженерной школе, и 1000 детей посещают занятия, чтобы поступить, и они посещают определенное количество занятий. Хорошо, тогда мы могли бы захотеть оценить, используя какое-то распределение колоколов, потому что оно сравнивает студентов, а не их освоение курса. После того, как вы сделаете это для нескольких курсов, вы, вероятно, сможете отсеять около 50 студентов.
Другие модели распространения
Проблема с заявлением о том, что при наличии большого населения у вас должно быть определенное количество определенных оценок, на самом деле, как упоминалось выше, заключается в сравнении студентов друг с другом и имеет очень мало общего с их знанием материала курса.
Даже с простой моделью кривой, в которой вы даете лучшему ученику 100% и оцениваете его, вы можете столкнуться с некоторыми серьезными проблемами, имея плохую визуализацию оценок. Если бы вы были ужасным учителем, а ученики плохо успевали, лучший ученик мог бы иметь 80%. Вы просто увеличиваете всех на 20% и чувствуете себя при этом хорошо?
Кроме того, когда вы делаете подобные вещи, как это отражается на вашей стратегии оценивания? Например, что, если первая половина ваших тестов относительно проста, и каждый из них работает на уровне A. Потом следующая половина будет очень-очень тяжелой. Человек, получивший 80%, получает 100%. Но тогда человек, который хорошо понял первую половину, но затем пропустил все на более сложном материале... он все еще получает тройку?
Что вы делаете?
Если ваш курс является частью основной части обучения и проходит большую часть учащихся, вы хотите обсудить с вашей школой, что они ожидают от своих учеников. Возможно, посмотрите на исторические записи для подобных классов. Я уверен, что курс «Введение в английский» имеет разные баллы в университетах высшего уровня по сравнению с государственными колледжами.
Оттуда установите цели для студентов и дайте им знать, что ожидается. Если все делают то, что от них ожидают, и усваивают материал, все получают пятерки. Если никто не приходит на ваши занятия и ничему не учится, все получают пятерки. Сложность заключается в корректировке класса, если вы чувствуете, что шкала оценок слишком проста или слишком сложна. Но не должно быть фиксированного распределения. Если мы говорим по английскому языку 101 в Гарварде, мы видим, по крайней мере, 70-80% А.
Для класса более высокого уровня большая часть распределения выходит из окна. Если вы проводите урок естествознания в определенной области, вы должны четко выставлять оценки в соответствии с тем, насколько хорошо учащийся усвоил концепции и материалы. Там оценка должна указывать на то, насколько хорошо они могут рассчитывать на работу, если они перейдут на следующий уровень. Если бы вы преподавали квантовую физику и у вас был бы класс из 10 человек, который был абсолютно ниже среднего, вы бы просто поставили несколько пятерок и четверок? Затем, когда они сдают Quantum Physics II, следующий профессор говорит: «Какого черта, эти студенты не готовы к этому предмету».
Правильное распределение — это то, к которому привыкли учащиеся.
Я бы оспорил ваше предположение, что больше энтропии всегда лучше, чем меньше.
Давайте представим учащегося, который обычно получает оценку B с оценками от A до D, а также с F и различными плюсами и минусами, и есть кривая нормального распределения, концентрирующая результаты класса вокруг C+.
Они довольны оценкой B, они довольны оценкой B+ и так далее. Они в общих чертах знают, где они сидят по отношению к своей когорте.
Затем профессор Энтропи решает давать буквы до конца W, при этом F по-прежнему является неудачным (F - самая низкая оценка, а W - вторая самая низкая) и +/- все еще используется. Колокольное изгибание было заменено плоским распределением. Студент получает H+ за свою работу. Это имеет гораздо большую энтропию, но почти ничего не говорит учащемуся о том, насколько хорошо он справился с тем, насколько хорошо он должен был учиться, или о том, как он справился с другими предметами (C+, B- и A- в старой системе). Если учащийся хочет сравнить свою оценку с другими оценками, которые он получил, ему придется преобразовать оценку, которую вы ему поставили, в то же распределение, к которому он привык.
Вы хотите сравнить студентов друг с другом. Они хотят сравнить себя с теоретической личностью, которая училась немного усерднее, или ДЕЙСТВИТЕЛЬНО нашла время, чтобы пойти на эту вечеринку, или вернулась к предмету ABC вместо XYZ, на который они недавно переключились.
Вы целевая аудитория для оценок, или студенты??
Приносим извинения за отсутствие цитирования, но это настолько же оспаривает ваши предпосылки/предположения, сколько и является ответом.
Исследовательской специализацией моего наставника на курсе бакалавриата была статистическая механика. Он написал программу «нормализации оценок» для моего университетского курса, которым была физика. Он брал у студентов необработанные профессии и выдавал итоговую оценку в Великобритании (1-я, 2-я верхняя, 2-я нижняя, 3-я, неудовлетворительно). Он сказал мне, что идеализированное распределение должно быть нормальным распределением; студенты будут рандомизированы вокруг среднего значения с более или менее способными, прилагающими больше или меньше усилий, с более или менее отвлекающими факторами того, что они старшекурсники (также известные как вечеринки), и поскольку эти факторы были случайными [*].
Мой преподаватель пожаловался, что проблема в том, что фактическое распределение оценок на типичных экзаменах больше похоже на перевернутое нормальное распределение; бимодальный с группой людей, проваливающих экзамены, группой людей, сдающих экзамены, и очень немногими людьми, сдающими «средний балл». Во многом это произошло из-за того, что экзамены не идеальны, и их трудно правильно подать; слишком сложно, и люди проваливаются, и слишком легко, и слишком много людей выигрывают. Таким образом, цель программного обеспечения, которое он написал, заключалась в том, чтобы попытаться перенормировать индивидуальные экзамены по сравнению с контингентом студентов, сдающих их. Вместо идеальных экзаменов, оценивающих контингент студентов, несовершенные экзамены могут быть нормализованы по отношению к контингенту студентов. Он был очень умным ученым, который десятилетиями работал педагогом, поэтому я подозреваю, что его интуиция и подход были здравыми.
[*] Из двух самых ярких парней, которых я все еще знаю два десятилетия спустя, один получил тройное 1-е место и медаль колледжа, а другой был исключен из-за чрезмерной вечеринки; друг, который завалил своих студентов-физиков, недавно занял должность профессора в респектабельном университете со специализацией в области исследований международного развития.
Философия оценки моего профессора философии заключалась в том, что по определению большинство людей средние (т.е. C).
Студенты спросили, ставит ли он оценки по кривой, и он ответил: Да, если мои оценки не падают на кривую нормального распределения, когда основная часть класса получает тройки, несколько пятерок и четверок и, может быть, пару пятерок и пятерок, тогда я либо сделал мои тесты слишком простыми (оценки смещены в сторону A), либо слишком сложными (оценки смещены в сторону F).
Я полагаю, это зависит от того, пытаетесь ли вы подтолкнуть нескольких своих учеников к успеху или пытаетесь помочь как можно большему количеству учеников получить хорошие оценки.
фонбранд
Борис Бух
ff524
HRSE
Дэниел Р. Коллинз
Джессика Б
HRSE
Петерис
ДжеффЭ
ДжеффЭ
Стефан Коласса
HRSE
Рафаэль
ff524
Аарон Холл