Суждения о сходстве между образцами письма

Вчера вечером я думал о возможности проведения эксперимента, в котором исследуются факторы, влияющие на суждения людей о «стилистическом сходстве» между двумя образцами письма. Например, такой эксперимент может состоять из нескольких испытаний для каждого испытуемого, каждое из которых будет представлять различный набор, скажем, 3 коротких отрывка письма (текст, случайно выбранный из корпуса сочинений авторов... возможно, не более 500 слов). каждый). Каждому участнику будет предложено оценить: «Какие два из этих произведений наиболее похожи по стилю?» ИЛИ «Какие 2 из этих произведений, скорее всего, были созданы одним и тем же человеком?».

Часть анализа и интерпретации данных может включать использование программ, подобных этой: http://www.hackerfactor.com/GenderGuesser.php . Исследователи могут выдвигать гипотезы относительно факторов низкого уровня, которые могут быть важны для суждений людей о стилистическом сходстве, а затем писать программы, которые будут делать суждения на основе этих факторов низкого уровня.

Я предполагаю, что исследования, напоминающие или даже полностью соответствующие тому, что я описал выше, проводились в прошлом. После прочтения того, что я написал выше, у кого-нибудь есть какие-либо предложения для соответствующих чтений?

Я думаю, это звучит очень интересно, это почти как «естественная» обработка естественного языка. НЛП может дать вам пищу для размышлений о том, какие функции могут быть важны для человека, читающего, исходя из того, что статистически работает для компьютера.

Ответы (1)

Похоже, вы говорите о скрытом семантическом анализе . Вот их краткое изложение того, что это такое.

Однако LSA в том виде, в каком он применяется в настоящее время, имеет некоторые дополнительные ограничения. Он не использует порядок слов, то есть синтаксические отношения, логику или морфологию. Примечательно, что ему удается довольно хорошо извлекать правильные отражения отрывков и значений слов без этих вспомогательных средств, но в некоторых случаях его все же следует подозревать в неполноте или вероятной ошибке.

Он используется во многих автоматизированных программах оценивания или системах, предназначенных для выставления оценки бумаге на основе некоторых критериев. Однако, поскольку порядок не имеет значения, синтаксическую и грамматическую согласованность гораздо труднее измерить, поэтому количественная оценка «стиля» может быть немного сложной, если только под «стилем» вы не подразумеваете что-то вроде выбора слова, выбора фразы и т. д.

Вот поиск gscholar . Первые три должны давать хороший обзор.

Добро пожаловать на сайт. Я думаю, что ОП больше интересуется исследованиями суждений людей о сходстве, а не столько программными реализациями идентификации стиля (кажется, он упоминает их только в отношении формирования базовой линии). Можете ли вы отредактировать свой ответ, чтобы более четко обратиться к части человеческого суждения?