У меня есть трехлетний опыт преподавания в составе команды (многие преподаватели, некоторые с большим опытом, вместе согласовывают учебный план и готовят тесты), но в этом году я впервые полностью отвечаю за некоторые курсы.
После оценки промежуточного экзамена в одном классе я заметил, что у меня странное распределение оценок:
(Если это полезно, есть 24 класса, набор классов {1,2, 1,4, 1,4, 1,9, 2,0, 2,3, 2,6, 2,6, 3,4, 4,2, 4,2, 4,3, 4,6, 4,6, 4,8, 4,8, 4,9 , 5,3, 6,0, 6,2, 6,4, 7,1, 7,8, 7,8}, среднее значение равно 4,25, а стандартное отклонение равно 2,01.)
Я внимательно изучил все свои предыдущие тесты и могу подтвердить, что никогда раньше не видел такой кривой.
По своему непродолжительному опыту я слышал, читал или размышлял о том, что распределение с двумя кривыми, вероятно, будет означать либо а ) большую подгруппу студентов, списывающую, либо б ) как учитель я в основном обращаюсь к лучшим ученикам и подвожу остальных.
Но похоже, что на самом деле есть три кривые, и мне интересно, какая характеристика моего обучения или моих учеников могла бы это объяснить.
Кроме того, если кто-то знает какие-либо научные работы по этому вопросу, это было бы прекрасно. Сам ничего не нашел.
Здесь есть несколько возможных факторов: учитывая относительно небольшое количество доступных баллов, объединение может исказить распределение оценок, особенно если они также присуждаются целым числом. (То есть в модели недостаточно уточнений, чтобы выделить вещи.)
Другая проблема заключается в том, что размер выборки относительно невелик; двадцать четыре студента — это не особенно большая выборка — ваше стандартное отклонение здесь составляет два балла из 10! Кроме того, вы должны попытаться отобразить данные в соответствии с полуцелыми интервалами (от 0,5 до 1,5, от 1,5 до 2,5 и т. д.); вы получите совсем другое распределение.
Так что, по сути, я бы не стал делать какие-либо окончательные выводы из такого сюжета или раздачи.
Я согласен с другими ответами, что это может быть артефакт гистограммы. Могу ли я скромно предложить несколько альтернативных способов построения этих оценок?
Все это, по сути, показывает, что ваши эффекты, вероятно, связаны с малым n и, возможно, с дискретным базовым процессом генерации данных.
R-код:
require(hdrcde)
require(Hmisc)
require(denstrip)
require(beanplot)
require(beeswarm)
grades <- c(1.2, 1.4, 1.4, 1.9, 2.0, 2.3, 2.6, 2.6, 3.4, 4.2, 4.2, 4.3, 4.6, 4.6, 4.8, 4.8, 4.9, 5.3, 6.0, 6.2, 6.4, 7.1, 7.8, 7.8)
opar <- par(mfrow=c(1,6), mar=c(3,2,4,1))
boxplot(grades, col="gray90", main="Standard\nboxplot",yaxt="n")
hdr.boxplot(grades, main="HDR\nboxplot",yaxt="n")
bpplot(grades,xlab="",name=FALSE,main="Box-Percentile\nPlot")
beanplot(grades,col="grey",yaxt="n",main="Bean plot/\nViolin plot",border="black")
plot(c(0,2),range(grades),type="n",xaxt="n",yaxt="n",xlab="",ylab="",
main="Density\nplot")
denstrip(grades, horiz=FALSE, at=1, width=1)
beeswarm(grades,pch=19,main="Beeswarm\nplot")
par(opar)
РЕДАКТИРОВАТЬ: (извините, я статистик, я ничего не могу поделать...) Я пошел и взял оценку плотности ядра Джека и пару раз передискретизировал 24 «студента». В каждом случае я построил гистограмму. Результат ниже. Мы видим, что даже безобидная одномодальная кривая может привести к довольно неровным гистограммам из-за дискретизации и небольшого размера выборки.
R-код:
dens <- density(grades)
opar <- par(mfrow=c(2,4))
for ( ii in 1:8 ) {
samp <- rnorm(length(grades), sample(grades, size = length(grades), replace = TRUE), dens$bw)
hist(pmin(10,pmax(0,samp)),breaks=0:10,xlab="",ylab="",main="",col="gray")
}
par(opar)
shapiro.test(grades)
не отвергает нулевую гипотезу о нормальном распределении, p = 0,27. Однако, как вы пишете, это может быть связано с небольшим размером выборки. На самом деле мы знаем , что данные не могут быть нормальными, поскольку (а) оценки ограничены от 0 до 10 (?), тогда как нормальное распределение неограниченно, и (б) оценки дискретны по заданным точкам. Это иллюстрирует, почему значение p> 0,05 не является «доказательством» чего-либо и почему статистики не слишком заинтересованы в NHST ;-)density()
дает кривую, которая лишь слегка мультимодальна, см. график в ответе Джека Эйдли. В конце концов, гистограмма очень похожа на такую ядерную оценку плотности, но с очень специфическим выбором сглаживающего ядра. ЮММВ, конечно.Я сделал график оценки плотности ядра ваших данных, показанный ниже. У вас есть центральная группа кандидатов с 4-5 и второй более низкой группой студентов, которые справились довольно плохо.
Просто добавляя к другим статистическим анализам здесь... вы не можете быть уверены, что эта выборка не получена из нормально распределенной совокупности оценок от одинаковых учеников в аналогичных классах. Вот еще немного R-кода для анализа и его вывода:x=c(1.2,1.4,1.4,1.9,2.0,2.3,2.6,2.6,3.4,4.2, 4.2,4.3,4.6,4.6,4.8,4.8,4.9,5.3,6.0,6.2,6.4,7.1,7.8,7.8);qqnorm(x);qqline(x)
Сравните свои оценки с:
от Skbkekas
Ваши оценки слева не совсем соответствуют линии QQ , но они не очень систематически отклоняются. Числа справа взяты из нормального распределения; кроме того, что они более многочисленны, они кажутся похожими.
Ваши оценки практически не искажены ( skew(x)
= 0,12). Они platykurtic , но у вас их недостаточно, чтобы с большой уверенностью игнорировать возможность того, что это отличие от нормального распределения связано с ошибкой выборки . Вот результаты теста на эксцесс Анскомба-Глинна ( require(moments);anscombe.test(x)
): эксцесс = 2,03, z = -1,23, p = 0,22. FWIW, вы также можете проверить нулевую гипотезу о том, что ваши данные получены из нормально распределенной совокупности, используя тест Шапиро-Уилка ( shapiro.test(x)
: W = 0,95, p = 0,27), но проверка нормальности может быть «по сути бесполезной».(это может относиться и к специальным тестам значимости эксцесса или асимметрии).
Кажется, вы называете моды или локальные максимумы кривыми. @StephanKolassa, @aeismail и @JackAidley уже продемонстрировали, насколько обманчивыми могут быть гистограммы в этом отношении. Комментарий @RedSirius также актуален, и вы признали влияние размера корзины в своем комментарии, но не отредактировали свой вопрос, чтобы уточнить, на что это вам не отвечает (подсказка;) ; ) . Непонятно, что тут еще нужно сказать. У вас не так много свидетельств чего-то необычного, тем более вы дали серьезное внешнее основание для предложенных вами интерпретаций относительно обмана или неравномерного обслуживания студентов с разными способностями, поэтому, похоже, дальнейшие предположения могут только цепляться за пресловутые соломинки.
Тем не менее, возможно, все же стоит процитировать некоторые (возможно, недостаточно изученные) академические трюизмы:
Помните, что центральная предельная теорема предполагает независимые выборки. Это часто плохое предположение для студентов. Списывание, конечно, возможно, но также может быть и то, что они учатся в группах (большинство людей находят это очень полезным). Всплески в ваших данных могут просто соответствовать группам, которые учатся вместе и имеют схожие сильные и слабые стороны.
У меня есть теория, которая может объяснить ситуационные аномалии, подобные этой, в классе, и она настолько точна с точки зрения ситуации, насколько у меня есть время, чтобы разобраться.
Чтобы упростить математику задачи, я опускаю некоторые масштабные коэффициенты из своей математики, которые служат не более чем визуальным беспорядком.
Пусть идеальная кривая колокола определяется как C(x)
.
Ваш набор учеников равен S
, и у вас есть волшебная функция Q(s)
, за s ∈ S
которую выдается «качество» работы ученика.
Теперь рассмотрим тест. Тест состоит из набора задач (назовем этот набор T
). Каждая задача p ∈ T
имеет сложность, определяемую D(p)
. Вероятность того, что студент s
правильно ответит на задачу, определяется:
Р правильно (с, р) =
Из этого следует, что ученик с более высоким уровнем, Q
чем D
задача, с большей вероятностью решит ее, а студент с более низким Q
- с меньшей вероятностью.
Определим идеальный балл учащегося, сдающего тест, какSi(s, T) = Σ Pcorrect(s, p), p ∈ T
Если бы вы взяли идеальный результат за конкретный тест для каждого ученика в вашем классе, вы получили бы идеальное распределение, и есть вероятность, что если бы ваши ученики действительно сдали тест, вы получили бы распределение, которое, по крайней мере, приблизительно приближается к идеальный.
Важно вынести из того, что мы имеем до сих пор, то, что для группы студентов, сдающих тест, сложность задач в тесте математически влияет на распределение оценок, которое вы, вероятно, получите.
Например, предполагая, что ваша студенческая совокупность имеет примерно колоколообразную кривую, вы можете увидеть распределение оценок, подобное вашим наблюдениям, если ваши вопросы теста имеют примерно следующие уровни сложности:
[2, 2, 5, 6, 6, 7, 7, 8, 10, 10+, 10+]
Большое количество учащихся правильно ответило бы на 2 простых вопроса, но, поскольку вопросов уровня сложности ниже среднего немного, некоторые учащиеся в нижней части кривой не смогли бы правильно ответить ни на один из более сложных вопросов. На очень высоком уровне есть некоторые вопросы, которые могут быть чрезвычайно сложными для уровня навыков учащихся (это может произойти по ряду причин), на которые большая часть класса ответила неправильно (при условии, что общая оценка не превышает 10 баллов). .
Предполагая, что ваше распределение классов примерно такое,
0-2|
3 | 1
4 | =2
5 | ===4
6 | ====5
7 | ====5
8 | ===4
9 | =2
10 | 1
Их идеальное распределение (как определено ранее, немного округленное, чтобы уменьшить скопление) будет выглядеть примерно так:
0 |
1 |
2 | ===4
3 | ===4
4 | ===4
5 | ===4
6 | ==3
7 | =2
8 | 1
9 |
10 |
Что немного напоминает наблюдаемую кривую, которую вы наблюдали экспериментально.
Кроме того, в реальных ситуациях не будет таких элегантных математических решений (например, вероятность того, что учащийся ответит на вопрос правильно), поэтому эту модель следует рассматривать только как разумное, обоснованное приближение.
TL;DR Возможно, вопросы в этом тесте были более сложными и менее исчерпывающими, чем вы думали, когда раздавали его.
Если бы каждый учащийся смог решить каждый вопрос с независимой вероятностью p, то можно было бы ожидать нормального распределения. Но на самом деле это не очень хорошая модель.
Допустим, у вас есть большое количество задач в тесте, которые должен решить любой порядочный студент. Решение всех из них дает вам 5-й класс. Следовательно, вы получаете много учеников в 5-м классе; все, кто достаточно хорошо справляется с этим курсом; некоторые немного ниже из-за глупых ошибок, которые просто случаются, плюс несколько человек, которые просто плохо подготовились и не имеют шансов пройти.
Тогда у вас есть несколько действительно сложных проблем. Средний студент не решает ни одну из них. Отличники решают одно, два или три, пока не кончатся сроки.
Такой тест может дать вам распределение даже при очень большом количестве студентов.
Сложный сценарий занятий с довольно стандартными группами учеников:
Если тест был недостаточно важным или слишком сложным, разбивка выше все объясняет.
Чемпионам не удалось добиться максимального результата, но они набрали неплохие результаты в районе 6-7 очков. Простым студентам удалось узнать достаточно, чтобы вдвое сократить тест. Неуспевающие поняли, что без понимания темы они здесь не засветятся.
Группы 2 и 3 смешиваются вместе, что видно на сюжете у Джека Эйдли, надеюсь, я смогу это позаимствовать :)
Уровень высокий? Был ли тест хорошо построен и предлагал вопросы разной сложности?
Если так, то я думаю, что дело обстоит именно так, и вам просто удалось увидеть, кто ваши ученики. Возможно, вы захотите выяснить, является ли проблема отсутствием мотивации или неспособностью перейти к теме.
Я думаю, что вы слишком приспособили сложность вопросов к диапазону способностей в классе. Это похоже на теорию @gnasher729.
Очевидно, что это все догадки, основанные на данных, и вам придется решать самостоятельно, имеет ли это смысл или нет. Но это соответствовало бы данным, если бы у вас было два чрезвычайно простых вопроса (которые мог решить абсолютно каждый), три чуть сложнее, три еще сложнее и два невозможных вопроса, которые никто не мог решить. Все попали в один из трех уровней, при этом некоторые студенты также сделали одну или две ошибки в вопросах, которые они знали, как решить.
Если один балл не соответствует одному вопросу, то может быть то же самое, но с другим количеством вопросов.
Таким образом, вы попытались распределить сложность вопросов (что является нормальным), но а) вы сгруппировали множество вопросов одинаковой сложности вместе и б) вы слишком разбросали группы, при этом 4 из 10 вопросов не давали никаких указаний на все, что касается относительных способностей учеников (потому что каждый получил 2 из них, а никто не получил 2 других). Я предполагаю, что ограничение по времени экзамена не было большим фактором, поскольку люди работают с разной скоростью и ограничениями по времени, вероятно, поэтому они сглаживают оценки.
Есть любой простой способ проверить эту теорию. Все ли учащиеся, получившие 2, 5 и 8 баллов, правильно ответили на одинаковые или очень похожие вопросы? Моя теория предсказывает, что да.
Присмотревшись к цифрам (это все еще догадки), я бы сказал, что 3 разные группы способностей соответствуют примерно 7,8 вопросам (при этом довольно многие делают ошибки на один или два балла), 4,8 вопросам (при этом большинство не делает ошибок). много ошибок) и 2,6 (большинство ошибается на 0,5-1,5 балла).
Я считаю, что часть вашей проблемы заключается в том, как вы округляете график. Вместо округления в большую сторону давайте просто округлим до ближайшего целого числа.
Это больше похоже на нормальное распределение, хотя, возможно, немного тяжелое в задней части. Честно говоря, такое округление имеет гораздо больше смысла при работе с распределением класса, потому что без такого округления может появиться что-то похожее на то, как выглядит ваш график. Это также объясняет, почему многие нецелочисленные графики также выглядят довольно нормально.
Кейп Код
Дробный
пьяный
Петр Мигдаль
Дэвид Ричерби
Рафаэль
ЭП
кешлам
Амбиция