Каково распределение успеваемости по академическим предметам программирования?

На Programmers SE есть популярный вопрос о научных доказательствах того, умеют или не умеют некоторые люди программировать .

Один человек цитирует неопубликованную рукопись Дехнади и Борната (2006), в которой в аннотации говорится:

Все преподаватели программирования обнаруживают, что их результаты показывают «двойной горб». Как будто есть две популяции: те, кто может, и те, кто не может, каждая со своей независимой кривой нормального распределения.

Тем не менее, преподаватели могут выбирать, как оцениваются индивидуальные оценки, как комбинируются оценки, а также должны ли и каким образом масштабироваться итоговые оценки. Все это может повлиять на форму окончательного распределения оценок.

Я также предполагаю, что получение двойного горба означало бы, что переменные, которые лучше всего предсказывают успеваемость учащихся (например, время, затраченное на предмет, общие способности, способности по конкретному предмету), должны либо показывать двойной горб, либо демонстрировать прерывистую связь с успеваемостью. . В частности, я вижу, что студенты, которые выбывают из предмета без формального исключения из зачисления, скорее всего, очень плохо провалятся и окажутся в отдельном горбе. Я также подозреваю, что определенные типы предметов, ответы на которые явно верны или неверны и где интуиция из повседневной жизни менее актуальна, также могут привести к процессу, в котором кажется, что люди либо могут справиться с предметом, либо нет.

Вопросы

  • Каково распределение оценок по университетским предметам?
  • Насколько распределение оценок по предметам программирования отличается от распределения оценок по предметам, не связанным с программированием? Он бимодальный?
  • Существуют ли какие-либо теории или эмпирические данные о том, что приводит к бимодальному распределению оценок?

использованная литература

  • Дехнади, С. и Борнат, Р. (2006). У верблюда два горба (рабочее название). Университет Миддлсекса, Великобритания. PDF и сводная страница .
Оказывается, вопрос обсуждается и на ЕГЭ: cseducators.stackexchange.com/questions/756/…

Ответы (3)

В нашем университете есть общедоступная база данных о распределении оценок, поэтому я очень быстро проанализировал некоторые исторические данные, чтобы увидеть, есть ли какая-либо поддержка этой идеи. К моему удивлению, оказалось, что может быть. Но мой анализ очень ограничен.

Я скачал распределения оценок для всех вводных курсов по психологии и информатике за 2010-2014 годы. Это дало мне оценки примерно 15 000 студентов-психологов и примерно 1 500 студентов, изучающих информатику. Я суммировал количество баллов по каждой букве, а затем нормализовал их до процента учащихся. Извиняюсь за несколько уродливую диаграмму, но вот что я нашел:

введите описание изображения здесь

Распределение буквенных оценок кажется довольно последовательным по обеим дисциплинам, но что бросается в глаза, так это присвоение оценок «W», которые получают, когда студент отказывается от курса после того, как был зачислен как минимум на первую неделю занятий. . Около 20% всех начинающих студентов CS покидают класс, в то время как менее 5% начинающих студентов-психологов делают это. Это может указывать на то, что большее количество студентов CS считают курс слишком сложным для них и отказываются от него, а не получают низкую оценку.

У вас (все еще) есть данные в числовом формате? Я бы не хотел, чтобы изменить это с графика ...

Согласно исследованию Элизабет Патицас, распределение не бимодальное . Она попробовала 778 курсов CS Университета Британской Колумбии, а также 5 курсов CS Университета Торонто и обнаружила, что подавляющее большинство из них не являются бимодальными:

По оценкам, 85,1% итоговых оценок в студенческих классах UBC по информатике распределяются нормально. 5,8% классов протестированы как бимодальные, что ненамного больше, чем уровень ложных срабатываний, который я ожидал увидеть (5%).

Вы можете прочитать больше об этих результатах в сообщении блога, указанном выше, или в « Доказательствах того , что оценки по информатике не являются бимодальными» Элизабет Патицас, Джесси Берлин, Мишель Крейг и Стив Истербрук.

Что еще хуже, при обсуждении этого люди, которые считают, что распределение является бимодальным, с большей вероятностью увидят бимодальное распределение в нормально распределенной выборке :

Мы отложили подведение итогов до тех пор, пока наш анализ не был завершен, исходя из предположения, что вы захотите узнать предварительные результаты исследования. Мы действительно обнаружили, что участники, которые более решительно соглашались с утверждением «Некоторые учащиеся от природы предрасположены к лучшим результатам в CS, чем другие», статистически значимо чаще называли неоднозначные распределения бимодальными.

Хорошая находка; психология наблюдателя объясняла (в аннотации статьи): «Случайная половина участников была подготовлена ​​к размышлению о том факте, что оценки по CS обычно считаются бимодальными; эти участники с большей вероятностью обозначали неоднозначные распределения как бимодальные. ". Участники также с большей вероятностью называли распределения бимодальными, если считали, что некоторые учащиеся врожденно предрасположены к лучшим результатам в CS. Эти результаты предполагают, что бимодальные оценки являются учебным фольклором в CS, вызванным предвзятостью подтверждения и убеждениями преподавателей о своих учениках».
Однако я должен задаться вопросом, репрезентативны ли данные UBC. Они упоминают статью с перекрывающимся набором авторов (Зингаро и др.), В которой экзамен превращается в множество мелких вопросов. Таким образом, если эта практика обычно применяется в UBC (но не в других местах), то данные UBC не являются репрезентативными. Ах, не говоря уже о том, что данные UBC относятся к периоду с 1996 по 2013 год, а статья Zingaro — к 2012 году, так что маловероятно, что она была применена, если только это не был «уровень техники», о котором никто не думал публиковать в течение многих лет (маловероятно).
@Fizz справедливая критика, которую она признает в своем блоге. Думаю, мы могли бы провести те же тесты с данными Джоша?
Хороший повод попробовать это с разными данными. Методологический вопрос заключается в том, что нам делать с большим количеством изъятий. В газете Patitsas об этом НИЧЕГО не говорится... что, вероятно, является самым большим знаком вопроса, теперь, когда я это понял.
Я почти уверен, что метаанализ 2014 года посчитал снятие средств неудачными. Это потому, что у них средний показатель отказа ~ 30% для США (у него также есть график по странам), поэтому с данными Джоша вам обязательно нужно добавить F + W, чтобы приблизиться к этому 30%. Кроме того, в каком-то американском учебном заведении, с которым я знаком, двойки также были бы неудовлетворительными, потому что студентам нужна как минимум тройка, чтобы записаться на последующие курсы CS. Между прочим, канадский показатель неудач в метаанализе составил всего 20%.
Да, методология должна была быть более открытой в мета-анализе, но они говорят: «В настоящее время мы обнаружили, что в этом исследовании 3/10 студентов не завершают или не завершают CS1». Таким образом, они определенно считают снятие средств неудачей.

(Это немного кратко, учитывая сложность вопроса. Я расширю позже, если смогу обобщить больше результатов.)

Вероятно, единственное, что можно сказать наверняка, — это высокий уровень отказов в классах уровня CS1 во всем мире. Из недавнего (2014 г.) метаанализа :

В этой статье мы отвечаем на призыв к дополнительным существенным доказательствам феномена частоты отказов CS1, проводя систематический обзор вводной литературы по программированию и статистический анализ данных о частоте неудач, извлеченных из соответствующих статей. Были извлечены и проанализированы показатели сдачи, описывающие результаты 161 курса CS1, которые проводились в 15 разных странах в 51 учебном заведении. Был обнаружен почти идентичный средний показатель успешности во всем мире, равный 67,7%. Анализ модератора выявил значительные, но, возможно, не существенные различия в показателях сдачи в зависимости от: уровня обучения, страны и размера класса. Однако было обнаружено, что количество успешно сдавших экзамены существенно не изменилось с течением времени или в зависимости от языка программирования, преподаваемого на курсе.

В 2007 году было проведено предыдущее всемирное исследование (с использованием данных, предоставленных пользователями в Интернете), которое согласуется с этим числом (частота отказов ~ 33%), хотя распределение, наблюдаемое для сдавших экзамены, было другим:

введите описание изображения здесь

Увы, ни одна статья не сравнивает это число с другими областями, но в 2007 году также подсчитано, что окончание высшего образования в области компьютерных наук является низким во всем мире, 26,8%, поэтому прохождение CS1 вряд ли гарантирует гладкое плавание после этого.

введите описание изображения здесь

Последний [контрпродуктивно трехмерный] график основан на данных ЮНЕСКО, поэтому Северная Америка отсутствует (США бойкотировали ЮНЕСКО).

Однако есть один документ , в котором говорится, что:

Исследования в Ирландии [1] показали, что компьютерные науки имеют самый высокий уровень отказов, что дает 26,9% незаконченных курсов по информатике.

[... цитирую:]

[1] Марк Морган, Рита Фланаган и Томас Келлаган, «Отчет о высшем образовании: исследование незавершенных курсов бакалавриата», опубликованный в феврале 2001 г.

Было выдвинуто несколько теорий частоты неудач CS1: генетическая основа, «импульс обучения» и / или камни преткновения, но еще слишком рано говорить о том, имеет ли какая-либо из них убедительную эмпирическую поддержку. (На самом деле в последней статье утверждается, что пока не существует хорошей стратегии сбора данных, которая позволяла бы даже принимать решения один на один.) И один академический блог предполагает (на основе своих собственных данных), что ни одна из них не может быть правильной. Еще одна статья предполагает, что упорство (Дакворта) играет существенную роль. А что касается того, что итоговая оценка представляет собой совокупность, в одной статье (основанной на одном курсе) предполагается, что бимодальные итоговые оценки студентов исходят из практической стороны оценки:

введите описание изображения здесь

Увы, мне не удалось найти другие документы, посвященные этому аспекту, однако мне кажется, что зернистая бумага указывает в том же направлении; было обнаружено, что упорство было гораздо лучшим предсказателем успеха CS1, чем ACT (который сам по себе считался косвенным показателем IQ).

Статья о горбах, упомянутая в вопросе, не воспринимается очень серьезно (большинство этих статей не цитируют ее) и даже самими ее авторами в наши дни . Также похоже, что он не был первым, кто наблюдал явление распределения оценок. Я не совсем уверен, почему он стал популярным в Интернете. Возможно, это сильный язык и/или эффект SE. Например, в этой статье 2005 года также отмечается частота отказов от 30% до 40%.


Также вот график с процентом отказов по странам из мета-анализа 2014 года:

введите описание изображения здесь

Авторы отмечают, что первые три лидера по неудачам – Португалия, Германия и Бразилия – были представлены в этом исследовании довольно небольшой выборкой, поэтому на данные по этим странам нельзя полагаться. С другой стороны, «из 4 стран, составивших 80% выборки, у Финляндии был самый низкий процент сдачи экзаменов — 57,7%». Остальные три страны в этом 80% массиве данных, США, Великобритания и Австралия, имели статистически неразличимые показатели.

Кроме того, в этом мета-анализе методология должна была быть более открытой, но они говорят: «В настоящее время мы обнаружили, что в этом исследовании 3/10 студентов не завершают или не завершают CS1». Таким образом, они определенно считают снятие средств неудачей, в основном, из-за статики, о которой они сообщили.