Я лектор, ведущий курс с более чем 250 студентами и несколькими ассистентами. ассистенты частично несут ответственность за оценку домашних заданий. Поскольку это задания по программированию, двух одинаковых работ не бывает, поэтому невозможно охватить все возможные случаи в правилах оценивания, а оценивание имеет некоторый субъективный элемент.
Я заметил, что один ТА стабильно строже других. Например, если в рекомендациях говорится, что «эффективность кода» стоит 20 баллов, то этот ТА вычтет 15 баллов, если код неэффективен, в то время как другие ТА вычтут только 5 баллов за аналогичную проблему. Потенциальная проблема здесь заключается в том, что это может быть несправедливо по отношению к учащимся класса строгого ассистента, но это можно решить, распределив задание «по горизонтали» (каждый ассистент оценивает все 250 представленных работ в некоторых заданиях), а не «по вертикали». .
Но у меня другой вопрос: я заметил, что студенты, которым ставят более строгие оценки, более серьезно относятся к отзывам и, как правило, становятся лучшими программистами. Таким образом, вместо того, чтобы просто быть «справедливым», я бы хотел, чтобы все ассистенты ставили более строгие оценки — ради студентов. Проблема в том, что большинство ассистентов не заинтересованы в строгой оценке — они ничего от этого не получают; все, что они получают, - это необходимость обрабатывать жалобы и апелляции студентов и рисковать более низкими оценками в отзывах студентов (поскольку студенты не понимают, что это в их пользу, пока они не закончат учебу).
ассистенты не ленивы - они действительно прикладывают много усилий для обучения и помощи студентам; им просто не нравится быть «плохими парнями», которые ставят низкие оценки. Как я могу мотивировать их ставить более строгие оценки?
ВЫВОД: Большое спасибо всем ответившим. Помимо отличных ответов, я сделал две вещи:
clang-tidy
для C++) как часть автоматической оценки. Это было намного строже, чем у меня и ассистентов, в выявлении проблем с читабельностью и качеством кода. Студенты многому научились, просто пытаясь запустить clang-tidy
свой код без предупреждений.Несколько вещей, чтобы добавить:
Убедитесь, что ТА знает, что вы поддержите их и будете плохим парнем. Студенты знают, что ассистенты используют ваши рекомендации. Если ассистент использует свое суждение, но был слишком резок, вы дадите понять и ему, и студенту, что это ваша вина, что вы не выразились более ясно.
Подчеркните преимущества последовательности для ТА. Напомните им, что студенты сравнивают оценки. Сообщите им, что можно спросить другого ассистента, как они оценивают что-то (или вас). Сообщите им, что если они дают слишком много баллов, это создает проблемы для других ТА.
Напомните им, что им пришлось много работать, чтобы сдать этот класс (при условии, что они это сделали). Студенты, как правило, защищают свои специальности, особенно TA, и хотят поддерживать стандарты.
Получите одобрение TA по критериям оценивания. Это похоже на последнюю пулю. Предположим, это -50% за неиспользование функций, даже если они работают. Напомните им, что это задание «научиться использовать функции», и в нем говорилось, что они необходимы, и вы всю прошлую неделю повторяли функции в классе. Скидка 50% щедрая.
Мне удалось прожить 5 лет, ни разу не услышав слова Рубрика, а затем еще 6 месяцев, прежде чем я понял, что это то же самое, что и оценочный ключ. Я пытаюсь быть несколько подробным в диапазоне:
Стиль:
- -5: не пробовал. ерунда имена переменных, случайные отступы, выглядит как мусор
- -3: еле пробовал и только местами
- -0: на самом деле пытался, но все еще выглядит плохо.
«Эффективность» кажется слишком расплывчатой. Я пытаюсь перечислить конкретные вещи, которые они должны сделать:
Эффективность:
- -5: нет циклов массива, просто много ЕСЛИ.
- -3: нет вложенных if
- -0: как минимум 2 полезных вложенных варианта if (даже если могут быть и другие)
Но (и я знаю, что это не то, о чем вы спрашивали) на обычных занятиях по кодированию часто просто пытаются изучить что-то новое и заставить его работать. «Хороший стиль» часто слишком многого требует. «Эффективность» может быть еще более пугающей и запутанной.
Я никогда не делал никаких тренировок с ТА. Только что переоценил на первой встрече. Затем обсудите предстоящее задание и то, как оценивать то, что должно быть выполнено, на каждом втором собрании.
-0
этому ключу. Все, кто оценивает задания, заметно более компетентны в предметной области, чем учащиеся. Я думаю, что четкое изложение этого помогает людям перестать искать идеальные решения для идеального результата.У вас есть более серьезная проблема, чем поощрение более строгих оценок. Вы должны обеспечить последовательную оценку. В противном случае ваша схема в корне несправедлива.
Во-первых, у вас нет возможности не указать правильную рубрику. Если вы этого не делаете, то вы подводите студентов. Если для этого требуется много работы, то перед вами стоит большая, но обязательная задача.
Вы можете сделать рубрику сколь угодно строгой (хотя мне не очень нравится концепция узких интерпретаций), но она должна быть ясной для ваших ассистентов и разумной для ваших студентов.
Один из способов обеспечить некоторую согласованность — привлечь более одного ассистента к работе каждого учащегося. Они должны договориться друг с другом или обратиться к вам за решением. Если они введут оценки учащихся в электронную таблицу, вы сможете легко увидеть различия и также сможете использовать ее для дальнейшего обучения ТА по мере необходимости, например, когда один ТА постоянно «слишком» снисходителен.
В упражнении, состоящем из большого количества частей, можно назначить каждого ТА ответственным только за одну часть. Это, как правило, работает для выпускных экзаменов, когда студенты отвечают на вопросы, но хуже для заданий по программированию.
Еще один способ получить хорошую рубрику — попросить вас или небольшую группу продвинутых ассистентов просмотреть работу студента, не оценивая ее, и использовать то, что они узнают, для уточнения рубрики, чтобы обеспечить согласованность. Вероятно, будет ошибкой использовать этот трюк для создания рубрики, но он дает вам представление о том, где студенты ошибаются и нуждаются в исправлении. Общий вид. Как только это будет сделано, может произойти фактическая оценка.
Еще один трюк, который не очень легко реализовать во время пандемии или при наличии большого количества оценщиков, заключается в том, чтобы собрать всех вместе в режиме реального времени для оценки всех работ. Это можно было бы сделать онлайн (увеличение масштаба), и вы могли бы присутствовать, чтобы отвечать на вопросы и принимать решения.
Но, опять же, требуется постоянство. Рубрика должна быть полной, чтобы гарантировать это. «Строгость» — это второстепенная проблема, но ее можно улучшить (ваша идея, а не моя) с помощью надлежащей рубрики, понятной всем.
Более того, если вы попытаетесь оценить по фиксированной шкале вещи, которые принципиально «нечетки», перед вами возникнет невыполнимая задача. Если вы можете определить «эффективность» в своем примере, тогда хорошо. Но если это нечеткое понятие, то почти каждая рубрика, скорее всего, оставит оценку интуиции. Ставьте точные оценки за то, что является точным. Но для других вещей, вероятно, необходимы суждение и немного сострадания.
В CS кое-что понятно, конечно. Если учащийся использует пузырьковую сортировку на большом массиве, это явно неэффективно. Но сортировка выбором более эффективна, чем быстрая сортировка в определенном масштабе, поэтому библиотечные версии быстрой сортировки обычно возвращаются к сортировке выбором для небольших разделов исходного набора.
Но суждения о «правильном факторинге» кода субъективны. Если вы чувствуете: «Я не могу определить это, но я узнаю это, когда увижу это ». тогда почти невозможно создать рубрику, которая будет последовательно использоваться группой ассистентов.
По моему опыту, лучший способ обеспечить согласованность — установить простые и четкие рубрики.
Это можно сделать с помощью модерации: пусть все преподаватели вместе отметят 10 сценариев и увидят, в чем заключаются разногласия.
В качестве альтернативы, если у вас есть доступ к инструментам модерации, таким как Gradescope, это избавляет от необходимости встречаться лично.
Итог - просто четко опишите свои ожидания. Объясните ассистентам цель выставления оценок – строгая или снисходительная, а также необходимость последовательности.
Несколько предложений, касающихся нескольких аспектов вопроса.
Потратьте некоторое время на обучение ТА. В начале семестра пусть все оценивают один и тот же набор образцов работ из предыдущего семестра. Соберитесь в группе, чтобы обсудить, что вы и они считаете важным при исправлении неэффективности и неэлегантности. Если вы можете достичь консенсуса, хорошо. Если нет, сделайте свои собственные требования понятными для всех. Возможно, повторите это упражнение с ТА после первого задания.
Рассмотрите две отдельные оценки для каждого задания, одну за правильность и одну за стиль. Может быть, быть строгим по шкале стиля, но меньше весить этой маркой.
Дайте заданиям по программированию в конце семестра больше, чем в начале, и убедитесь, что студенты знают об этом. Это должно смягчить эффект строгих стандартов в начале и научить их тому, что им нужно делать, чтобы работать лучше позже.
Для заданий по программированию нет ничего лучше, чем набор автоматических тестов, которые оценивают точность, производительность и запахи кода.
У вас могут быть уровни тестов:
В зависимости от уровня определяются баллы/оценка.
Конечно, вы можете использовать TA для просмотра решений, чтобы скорректировать баллы за умные решения и попытки сыграть в тесты.
Что я и другие ассистенты сделали в прошлом семестре, чтобы убедиться, что мы оцениваем всех студентов как можно более равномерно:
Этот подход вполне себя оправдал.
Если вы хотите уменьшить дисперсию, вы можете использовать многопроходную маркировку.
Все выводы происходят из комбинации помеченной части кода, причины и вывода из-за отмеченной части кода.
Возьмите такую информацию и передайте отмеченную часть кода и причины другому ТА, и они самостоятельно определят вычет на основании вашей Рубрики.
Если они существенно не согласны, отправьте их третьему ТА.
Если они по-прежнему в значительной степени расходятся во мнениях, сообщите об этом вам и улучшите Рубрику.
Первый ассистент тратит большую часть времени (ищет проблемы), второй ассистент должен применить Рубрику только к выявленной проблеме, так что это должно вдвое увеличить рабочую нагрузку по выставлению оценок.
Поскольку теперь вы сравниваете два (или три) определения ТА того, насколько серьезным является что-либо, вы можете сместить среднее значение в сторону более серьезной оценки. ассистенты, которые регулярно проявляют наименьшую суровость, работу которых вы можете проверить, и поощрять быть более строгими, если это необходимо.
Вы заметите, что вы даже можете использовать такой механизм для проверки кода между учениками (наблюдение за тем, что другие люди делают неправильно или правильно, имеет большое значение при обучении). Учащимся предлагается использовать Рубрику для просмотра кода другого учащегося и выявления областей, которые нарушают правила. Затем ассистенты могут просматривать выбранные учащимся вопросы и таким образом выставлять оценки.
Этот обзор студентов также можно использовать для выявления проблем, которые отсутствуют в ТА; если ассистент постоянно пропускает нарушения Рубрики, которые улавливают учащиеся (и сторонний аналитик отмечает как хорошие уловы), то это повод подумать о том, чтобы поговорить с этим ассистентом о том, чтобы быть более строгим.
Короче говоря, вам нужна видимость процесса. Это дорого делать самостоятельно, поэтому вам нужно, чтобы большое количество студентов и ассистентов предоставили полезную перекрестную проверку, использовали полученные данные, чтобы найти исключения, с которыми вы хотите справиться самостоятельно, а затем применить корректирующие действия к исключениям. Это должно эффективно изменить маркировку, чтобы она была более последовательной и правильно жесткой.
Мне кажется, что один из ассистентов корректирует свои оценки не в соответствии с разумными ожиданиями когорты студентов, а в соответствии с абсолютными критериями, например, x-баллов, потерянных для каждого из списка потенциальных недостатков. Это может быть несправедливо, потому что недостатки часто коррелированы, а не независимы, что приводит к бимодальному распределению оценок — все они либо в основном правильно поняли, либо в основном ошиблись. В британской системе, где у нас есть первый класс, высший и младший классы и т. д., я бы попросил ассистента посмотреть на оценку, которую они выставили учащемуся, и спросить себя, соответствует ли она подразумеваемой степени. классификация. Например, если было 20 баллов за эффективность, а маркер присвоил только 5, то это говорит о том, что работа находится на грани провала в соответствии с этим качеством. Сформулировано таким образом, они могут увидеть, что оценка несовместима с их субъективной оценкой работы, а не с объективной оценкой «галочки». Если бы другой маркер мог дать ему 15 баллов, он явно не на территории провала!
... конечно, это может быть другой маркер слишком мягкий, но опять же, это проблема калибровки, они должны спросить себя (в системе Великобритании), была ли работа «первоклассной» с точки зрения эффективности, как это что означает оценка 15 (75%).
Другое дело, как ТА модерируют свои первоначальные оценки, но это проверка их калибровки на вменяемость.
Программирование имеет большой субъективный элемент. Дело не в том, чтобы просто написать программу, которая вычисляет правильный ответ (надеюсь, эффективно), она должна быть написана таким образом, чтобы ее могли понять другие люди, чтобы кто-то еще мог ее поддерживать. Чрезмерно предписывающие рубрики могут вызвать больше проблем, чем пользы, потому что иногда учащиеся могут придумать хорошие решения, которые не соответствуют вашим рубрикам, и их не следует наказывать. У студентов также есть определенная степень свободы для творчества при выполнении заданий по программированию, и я думаю, что в долгосрочной перспективе это делает их лучшими программистами.
Предполагая, что «вы» — это университет: платите своим ассистентам больше, чтобы повысить мотивацию. Вы не можете ожидать хорошего качества работы или более высокой мотивации за низкокачественную оплату. Щедрое оценивание — это оценивание с минимальными усилиями.
Другие ответы, пропагандирующие рубрики и обучение, также верны.
Баффи
Рассвет
Эрел Сегал-Халеви
Эрел Сегал-Халеви
Рассвет
Пол Гаррет
Посейдан
Полигном
лжрк
Питер
Полигном
Питер
пользователь3067860
Дикран Сумчатый
Дикран Сумчатый
Полигном
Дикран Сумчатый
Рэй
Дикран Сумчатый
Хосинальво