Понимание ненормального распределения оценок

У меня есть трехлетний опыт преподавания в составе команды (многие преподаватели, некоторые с большим опытом, вместе согласовывают учебный план и готовят тесты), но в этом году я впервые полностью отвечаю за некоторые курсы.

После оценки промежуточного экзамена в одном классе я заметил, что у меня странное распределение оценок:

Аномальное распределение оценок

(Если это полезно, есть 24 класса, набор классов {1,2, 1,4, 1,4, 1,9, 2,0, 2,3, 2,6, 2,6, 3,4, 4,2, 4,2, 4,3, 4,6, 4,6, 4,8, 4,8, 4,9 , 5,3, 6,0, 6,2, 6,4, 7,1, 7,8, 7,8}, среднее значение равно 4,25, а стандартное отклонение равно 2,01.)

Я внимательно изучил все свои предыдущие тесты и могу подтвердить, что никогда раньше не видел такой кривой.

По своему непродолжительному опыту я слышал, читал или размышлял о том, что распределение с двумя кривыми, вероятно, будет означать либо а ) большую подгруппу студентов, списывающую, либо б ) как учитель я в основном обращаюсь к лучшим ученикам и подвожу остальных.

Но похоже, что на самом деле есть три кривые, и мне интересно, какая характеристика моего обучения или моих учеников могла бы это объяснить.

Кроме того, если кто-то знает какие-либо научные работы по этому вопросу, это было бы прекрасно. Сам ничего не нашел.

Спасибо за этот вопрос, который добавляет контент для академического сайта SO, который не касается того, насколько данный руководитель является подлым человеком или проблемами с самооценкой. Что касается темы, я должен сказать, что я всегда поражаюсь, когда узнаю, что инструктор/профессор не заботится о распределении оценок.
Ваши корзины выглядят слишком маленькими для размера и стандартного разработчика или вашего набора данных. В Википедии есть несколько предложений по размеру бина: en.wikipedia.org/wiki/Histogram#Number_of_bins_and_width
@RedSirius: Действительно, я пробовал с первым предложением, sqrt (24) ≈ 5 интервалов, и полученная кривая имеет только один пик.
xkcd.com/1347 (Извините, но не удержался.)
Трудно поверить, что происходит что-то особенно необычное, когда корректировка трех учеников на одно стандартное отклонение каждого (перемещение двух учеников с 2 на 4 и одного с 8 на 6) дает распределение с одним пиком.
1) Постройте гистограммы необработанных точек. Выглядит лучше? Если нет: 2) Постройте гистограммы отдельных задач, чтобы выяснить, были ли проблемы с некоторыми задачами или с экзаменом в целом. И всегда 3) используйте статистические тесты, чтобы увидеть, действительно ли ваши данные ненормальны.
Это распределение очень похоже на Т-распределение Учителя . Другими словами, иногда данные просто выглядят странно, но это не означает, что происходит что-то странное.
Что бы это ни стоило, я бы больше беспокоился о том, что большинство ваших учеников не могут набрать на экзамене более 50%. Если вы явно не разработали экзамен с намерением предложить им выбирать между вопросами, а не заполнять их все, это предполагает несоответствие между студентами, методами обучения, экзаменом и преподаваемым материалом.
Мои две копейки: ваш набор должен быть не набором, а мультисетом.

Ответы (10)

Здесь есть несколько возможных факторов: учитывая относительно небольшое количество доступных баллов, объединение может исказить распределение оценок, особенно если они также присуждаются целым числом. (То есть в модели недостаточно уточнений, чтобы выделить вещи.)

Другая проблема заключается в том, что размер выборки относительно невелик; двадцать четыре студента — это не особенно большая выборка — ваше стандартное отклонение здесь составляет два балла из 10! Кроме того, вы должны попытаться отобразить данные в соответствии с полуцелыми интервалами (от 0,5 до 1,5, от 1,5 до 2,5 и т. д.); вы получите совсем другое распределение.

Так что, по сути, я бы не стал делать какие-либо окончательные выводы из такого сюжета или раздачи.

Спасибо за помощь. Это правда, что использование полуцелых бинов дает другой результат , хотя он все еще выглядит ненормальным. Все равно было бы интересно узнать, что будет означать большее аномальное распределение.

Я согласен с другими ответами, что это может быть артефакт гистограммы. Могу ли я скромно предложить несколько альтернативных способов построения этих оценок?

введите описание изображения здесь

Все это, по сути, показывает, что ваши эффекты, вероятно, связаны с малым n и, возможно, с дискретным базовым процессом генерации данных.

R-код:

require(hdrcde)
require(Hmisc)
require(denstrip)
require(beanplot)
require(beeswarm)

grades <- c(1.2, 1.4, 1.4, 1.9, 2.0, 2.3, 2.6, 2.6, 3.4, 4.2, 4.2, 4.3, 4.6, 4.6, 4.8, 4.8, 4.9, 5.3, 6.0, 6.2, 6.4, 7.1, 7.8, 7.8)

opar <- par(mfrow=c(1,6), mar=c(3,2,4,1))
    boxplot(grades, col="gray90", main="Standard\nboxplot",yaxt="n")
    hdr.boxplot(grades, main="HDR\nboxplot",yaxt="n")
    bpplot(grades,xlab="",name=FALSE,main="Box-Percentile\nPlot")
    beanplot(grades,col="grey",yaxt="n",main="Bean plot/\nViolin plot",border="black")
    plot(c(0,2),range(grades),type="n",xaxt="n",yaxt="n",xlab="",ylab="",
        main="Density\nplot")
    denstrip(grades, horiz=FALSE, at=1, width=1)
    beeswarm(grades,pch=19,main="Beeswarm\nplot")
par(opar)

РЕДАКТИРОВАТЬ: (извините, я статистик, я ничего не могу поделать...) Я пошел и взял оценку плотности ядра Джека и пару раз передискретизировал 24 «студента». В каждом случае я построил гистограмму. Результат ниже. Мы видим, что даже безобидная одномодальная кривая может привести к довольно неровным гистограммам из-за дискретизации и небольшого размера выборки.

передискретизированные гистограммы

R-код:

dens <- density(grades)

opar <- par(mfrow=c(2,4))
for ( ii in 1:8 ) {
    samp <- rnorm(length(grades), sample(grades, size = length(grades), replace = TRUE), dens$bw)
    hist(pmin(10,pmax(0,samp)),breaks=0:10,xlab="",ylab="",main="",col="gray")
}
par(opar)
Учитывая, что вы статистик, можете ли вы отвергнуть гипотезу «данные получены из нормального распределения» с помощью какого-либо теста на соответствие? (Я бы предположил, что нет из-за небольшого размера выборки, но это дало бы «доказательство» того, что все в порядке.)
shapiro.test(grades)не отвергает нулевую гипотезу о нормальном распределении, p = 0,27. Однако, как вы пишете, это может быть связано с небольшим размером выборки. На самом деле мы знаем , что данные не могут быть нормальными, поскольку (а) оценки ограничены от 0 до 10 (?), тогда как нормальное распределение неограниченно, и (б) оценки дискретны по заданным точкам. Это иллюстрирует, почему значение p> 0,05 не является «доказательством» чего-либо и почему статистики не слишком заинтересованы в NHST ;-)
@StephanKolassa: Конечно, каждая выборка конечно ограничена и дискретна, так что это не слишком сильное ограничение. Вероятно, можно было бы проверить биномиальную форму или что-то еще, что дает вам форму, которую вы считаете «ожидаемой» в оценках. Да, размер выборки небольшой, но в этом и смысл, не так ли? Если это слишком мало, чтобы статистически отвергнуть «нормальность» , ОП не должен беспокоиться, чтобы они не интерпретировали данные, даже если там ничего нет. (Я думаю, это называется переоснащением?)
@Raphael: да, конечно, каждая выборка ограничена и дискретна (включая выборки из нормы), но в данном конкретном случае мы знаем, что совокупность ограничена и дискретна, поэтому она не может быть нормальной. Так что будьте придирчивы, тест Шапиро-Уилкса задает вопрос о данных, на которые мы знаем ответ. Но до тех пор, пока мы не воспринимаем значение p слишком серьезно, ваша главная мысль верна: данные не выглядят «аномальными» настолько, чтобы беспокоиться (хотя на самом деле это не переобучение, которое было бы следствием слишком подгонки ) . сложная модель ).
Большинство ваших графиков просто затрудняют просмотр мультимодального аспекта данных. Сделать что-то более трудным для восприятия — не то же самое, что показать, что это незначительно.
Данные не кажутся мне мультимодальными в осмысленном смысле. Если мы, например, сделаем плотность ядра, мультимодальность (или нет) будет зависеть от используемой нами пропускной способности. Выбор полосы пропускания density()дает кривую, которая лишь слегка мультимодальна, см. график в ответе Джека Эйдли. В конце концов, гистограмма очень похожа на такую ​​ядерную оценку плотности, но с очень специфическим выбором сглаживающего ядра. ЮММВ, конечно.
Возможно, вы правы, но я не думаю, что сюжет с коробкой и усами является каким-либо доказательством этого.
+1 к вашему комментарию о моем сюжете. Я не мог не согласиться. Боксплоты действительно слишком грубы, и мне они не очень нравятся. Мои три графика справа намного информативнее. К сожалению, ящичные диаграммы очень распространены, и многие люди понимают их, которым может потребоваться немало объяснений, чтобы понять бинограмму или график плотности. Моим личным фаворитом на самом деле является пчелиное тепло, если только точек данных не слишком много.

Я сделал график оценки плотности ядра ваших данных, показанный ниже. У вас есть центральная группа кандидатов с 4-5 и второй более низкой группой студентов, которые справились довольно плохо.

KDE-сюжет

Не будучи статистиком, могу я попросить вас добавить пару слов о том, что такое оценки плотности ядра и как они вычисляются? Спасибо.
Оценка плотности ядра - это попытка получить распределение, из которого получается выборка из этой выборки. Как они рассчитываются? Спросите кого-нибудь, кто лучше меня разбирается в статистике, например, @Stephen Kolassa.
Краткое введение: en.wikipedia.org/wiki/Kernel_density_estimation . KDE включает субъективный параметр полосы пропускания (сглаживание) с некоторыми практическими правилами для автоматического выбора. Было бы интересно узнать, какое программное обеспечение использовалось для построения графика выше.
@DanielRCollins Это было сделано в R, но так давно я не мог точно сказать, как я это сделал. Я бы, вероятно, использовал его настройки по умолчанию.

Просто добавляя к другим статистическим анализам здесь... вы не можете быть уверены, что эта выборка не получена из нормально распределенной совокупности оценок от одинаковых учеников в аналогичных классах. Вот еще немного R-кода для анализа и его вывода:x=c(1.2,1.4,1.4,1.9,2.0,2.3,2.6,2.6,3.4,4.2, 4.2,4.3,4.6,4.6,4.8,4.8,4.9,5.3,6.0,6.2,6.4,7.1,7.8,7.8);qqnorm(x);qqline(x)

Сравните свои оценки с: от Skbkekas

Ваши оценки слева не совсем соответствуют линии QQ , но они не очень систематически отклоняются. Числа справа взяты из нормального распределения; кроме того, что они более многочисленны, они кажутся похожими.

Ваши оценки практически не искажены ( skew(x)= 0,12). Они platykurtic , но у вас их недостаточно, чтобы с большой уверенностью игнорировать возможность того, что это отличие от нормального распределения связано с ошибкой выборки . Вот результаты теста на эксцесс Анскомба-Глинна ( require(moments);anscombe.test(x)): эксцесс = 2,03, z = -1,23, p = 0,22. FWIW, вы также можете проверить нулевую гипотезу о том, что ваши данные получены из нормально распределенной совокупности, используя тест Шапиро-Уилка ( shapiro.test(x): W = 0,95, p = 0,27), но проверка нормальности может быть «по сути бесполезной».(это может относиться и к специальным тестам значимости эксцесса или асимметрии).

Кажется, вы называете моды или локальные максимумы кривыми. @StephanKolassa, @aeismail и @JackAidley уже продемонстрировали, насколько обманчивыми могут быть гистограммы в этом отношении. Комментарий @RedSirius также актуален, и вы признали влияние размера корзины в своем комментарии, но не отредактировали свой вопрос, чтобы уточнить, на что это вам не отвечает (подсказка;) ; ) . Непонятно, что тут еще нужно сказать. У вас не так много свидетельств чего-то необычного, тем более вы дали серьезное внешнее основание для предложенных вами интерпретаций относительно обмана или неравномерного обслуживания студентов с разными способностями, поэтому, похоже, дальнейшие предположения могут только цепляться за пресловутые соломинки.

Тем не менее, возможно, все же стоит процитировать некоторые (возможно, недостаточно изученные) академические трюизмы:

  1. Очень сложно сделать все под одну гребенку, когда студентов намного больше, чем преподавателей.
  2. В случае со студентами, которые практически не прилагают усилий, вы действительно мало чем можете помочь.
  3. Обман, вероятно, тоже не будет иметь большого значения, если это основная форма прилагаемых усилий.

Помните, что центральная предельная теорема предполагает независимые выборки. Это часто плохое предположение для студентов. Списывание, конечно, возможно, но также может быть и то, что они учатся в группах (большинство людей находят это очень полезным). Всплески в ваших данных могут просто соответствовать группам, которые учатся вместе и имеют схожие сильные и слабые стороны.

Мне кажется, что распределение может быть артефактом теста так же легко, как артефактом преподавания или студентов.
@jack: Да, конечно, есть много возможных объяснений. Я просто предложил один.

У меня есть теория, которая может объяснить ситуационные аномалии, подобные этой, в классе, и она настолько точна с точки зрения ситуации, насколько у меня есть время, чтобы разобраться.

Чтобы упростить математику задачи, я опускаю некоторые масштабные коэффициенты из своей математики, которые служат не более чем визуальным беспорядком.

Пусть идеальная кривая колокола определяется как C(x).

Ваш набор учеников равен S, и у вас есть волшебная функция Q(s), за s ∈ Sкоторую выдается «качество» работы ученика.

Теперь рассмотрим тест. Тест состоит из набора задач (назовем этот набор T). Каждая задача p ∈ Tимеет сложность, определяемую D(p). Вероятность того, что студент sправильно ответит на задачу, определяется:

Р правильно (с, р) =заимствовано из Wolfram Alpha, «интеграл C (x - D (p)) от -бесконечности до Q (s)»

Из этого следует, что ученик с более высоким уровнем, Qчем Dзадача, с большей вероятностью решит ее, а студент с более низким Q- с меньшей вероятностью.

Определим идеальный балл учащегося, сдающего тест, какSi(s, T) = Σ Pcorrect(s, p), p ∈ T

Если бы вы взяли идеальный результат за конкретный тест для каждого ученика в вашем классе, вы получили бы идеальное распределение, и есть вероятность, что если бы ваши ученики действительно сдали тест, вы получили бы распределение, которое, по крайней мере, приблизительно приближается к идеальный.

Важно вынести из того, что мы имеем до сих пор, то, что для группы студентов, сдающих тест, сложность задач в тесте математически влияет на распределение оценок, которое вы, вероятно, получите.

Например, предполагая, что ваша студенческая совокупность имеет примерно колоколообразную кривую, вы можете увидеть распределение оценок, подобное вашим наблюдениям, если ваши вопросы теста имеют примерно следующие уровни сложности:

[2, 2, 5, 6, 6, 7, 7, 8, 10, 10+, 10+]

Большое количество учащихся правильно ответило бы на 2 простых вопроса, но, поскольку вопросов уровня сложности ниже среднего немного, некоторые учащиеся в нижней части кривой не смогли бы правильно ответить ни на один из более сложных вопросов. На очень высоком уровне есть некоторые вопросы, которые могут быть чрезвычайно сложными для уровня навыков учащихся (это может произойти по ряду причин), на которые большая часть класса ответила неправильно (при условии, что общая оценка не превышает 10 баллов). .

Предполагая, что ваше распределение классов примерно такое,

0-2| 
3  | 1
4  | =2
5  | ===4
6  | ====5
7  | ====5
8  | ===4
9  | =2
10 | 1

Их идеальное распределение (как определено ранее, немного округленное, чтобы уменьшить скопление) будет выглядеть примерно так:

0  | 
1  |
2  | ===4
3  | ===4
4  | ===4
5  | ===4
6  | ==3
7  | =2
8  | 1
9  |
10 |

Что немного напоминает наблюдаемую кривую, которую вы наблюдали экспериментально.

Кроме того, в реальных ситуациях не будет таких элегантных математических решений (например, вероятность того, что учащийся ответит на вопрос правильно), поэтому эту модель следует рассматривать только как разумное, обоснованное приближение.

TL;DR Возможно, вопросы в этом тесте были более сложными и менее исчерпывающими, чем вы думали, когда раздавали его.

Если бы каждый учащийся смог решить каждый вопрос с независимой вероятностью p, то можно было бы ожидать нормального распределения. Но на самом деле это не очень хорошая модель.

Допустим, у вас есть большое количество задач в тесте, которые должен решить любой порядочный студент. Решение всех из них дает вам 5-й класс. Следовательно, вы получаете много учеников в 5-м классе; все, кто достаточно хорошо справляется с этим курсом; некоторые немного ниже из-за глупых ошибок, которые просто случаются, плюс несколько человек, которые просто плохо подготовились и не имеют шансов пройти.

Тогда у вас есть несколько действительно сложных проблем. Средний студент не решает ни одну из них. Отличники решают одно, два или три, пока не кончатся сроки.

Такой тест может дать вам распределение даже при очень большом количестве студентов.

Сложный сценарий занятий с довольно стандартными группами учеников:

  1. Чемпионы - амбициозные и трудолюбивые / умные / заинтересованные
  2. Просто студенты - каждый час на эту тему причиняет боль, но я должен пройти его
  3. Неуспевающие - нет времени, усилий или нет идей, как справиться с темой

Если тест был недостаточно важным или слишком сложным, разбивка выше все объясняет.

Чемпионам не удалось добиться максимального результата, но они набрали неплохие результаты в районе 6-7 очков. Простым студентам удалось узнать достаточно, чтобы вдвое сократить тест. Неуспевающие поняли, что без понимания темы они здесь не засветятся.

Группы 2 и 3 смешиваются вместе, что видно на сюжете у Джека Эйдли, надеюсь, я смогу это позаимствовать :)

введите описание изображения здесь

Уровень высокий? Был ли тест хорошо построен и предлагал вопросы разной сложности?

Если так, то я думаю, что дело обстоит именно так, и вам просто удалось увидеть, кто ваши ученики. Возможно, вы захотите выяснить, является ли проблема отсутствием мотивации или неспособностью перейти к теме.

Когда я впервые работал ассистентом (в 1996 году), главный инструктор сказал мне, что есть 3 типа студентов: «те, кто здесь, потому что им интересно и они хотят учиться; те, кто здесь, чтобы получить степень, чтобы получить хорошую работу; и те, кто здесь, чтобы согреться». Удивительно, как хорошо они соответствуют вашим категориям :)
Хорошо сказано @Emmet, или, скорее, хорошо процитировано. Однако студенты иногда меняют категории при смене предметов. Страстному человеку относительно легко стать неудачником (или наоборот) в определенной области. Иногда учащимся нужно подтолкнуть, чтобы увлечься предметом, или их желание учиться может угаснуть, когда первые задания кажутся непонятными или слишком сложными.
У меня нет никакого уважения к студентам, которые просто «[там] согреваются» — если бы у них была хоть капля драйва и самоуважения, они бы сдались и уговорили своих родителей переехать в более теплые края. А если серьезно, +1 за психологическую сторону. Людям рядом с перевалом будет трудно его пройти; тех, у кого есть шанс преуспеть, будут поощрять.

Я думаю, что вы слишком приспособили сложность вопросов к диапазону способностей в классе. Это похоже на теорию @gnasher729.

Очевидно, что это все догадки, основанные на данных, и вам придется решать самостоятельно, имеет ли это смысл или нет. Но это соответствовало бы данным, если бы у вас было два чрезвычайно простых вопроса (которые мог решить абсолютно каждый), три чуть сложнее, три еще сложнее и два невозможных вопроса, которые никто не мог решить. Все попали в один из трех уровней, при этом некоторые студенты также сделали одну или две ошибки в вопросах, которые они знали, как решить.

Если один балл не соответствует одному вопросу, то может быть то же самое, но с другим количеством вопросов.

Таким образом, вы попытались распределить сложность вопросов (что является нормальным), но а) вы сгруппировали множество вопросов одинаковой сложности вместе и б) вы слишком разбросали группы, при этом 4 из 10 вопросов не давали никаких указаний на все, что касается относительных способностей учеников (потому что каждый получил 2 из них, а никто не получил 2 других). Я предполагаю, что ограничение по времени экзамена не было большим фактором, поскольку люди работают с разной скоростью и ограничениями по времени, вероятно, поэтому они сглаживают оценки.

Есть любой простой способ проверить эту теорию. Все ли учащиеся, получившие 2, 5 и 8 баллов, правильно ответили на одинаковые или очень похожие вопросы? Моя теория предсказывает, что да.

Редактировать

Присмотревшись к цифрам (это все еще догадки), я бы сказал, что 3 разные группы способностей соответствуют примерно 7,8 вопросам (при этом довольно многие делают ошибки на один или два балла), 4,8 вопросам (при этом большинство не делает ошибок). много ошибок) и 2,6 (большинство ошибается на 0,5-1,5 балла).

Я считаю, что часть вашей проблемы заключается в том, как вы округляете график. Вместо округления в большую сторону давайте просто округлим до ближайшего целого числа.введите описание изображения здесь

Это больше похоже на нормальное распределение, хотя, возможно, немного тяжелое в задней части. Честно говоря, такое округление имеет гораздо больше смысла при работе с распределением класса, потому что без такого округления может появиться что-то похожее на то, как выглядит ваш график. Это также объясняет, почему многие нецелочисленные графики также выглядят довольно нормально.

Что-то похожее на график OP может возникнуть с округлением более или менее легко. Я думаю, что @StephanKolassa уже продемонстрировал, насколько это обычно, на гистограммах небольших выборок.