Программное обеспечение для обнаружения локального плагаризма

Question

Программное обеспечение для обнаружения локального плагаризма

соандос

Я ищу программное обеспечение, которое обнаруживает плагиат и имеет следующие атрибуты:

Бесплатно (как в пиве)
Windows (7, 8, 8.1, 2012 сервер R2)
Интерфейс командной строки
Дает соответствующие фрагменты текста

Хорошо бы иметь:

Трехстороннее сравнение (текст во всех, в парных документах, только в одном документе)
XML-вывод

Полностью согласен компилировать из исходного кода, любых разумных языков или просто использовать вместо этого библиотеку Python.

В случае, если это было неясно, я хочу, чтобы он обнаруживал плагиат только из источников, которые я ему передаю. Кто-нибудь знает о таком программном обеспечении?

Стив Барнс

Вы ищете литературный плагиат или программное обеспечение и ищете его из конкретных источников?

соандос

@SteveBarnes Конкретные источники (т.е. файлы, которые я ему передаю)

Кенорб

Связанный: Программное обеспечение для обнаружения плагиата/веб-сайт для научной диссертации/статьи

Ответы (2)

Программное обеспечение для обнаружения локального плагаризма

Вы ищете литературный плагиат или программное обеспечение и ищете его из конкретных источников?
@SteveBarnes Конкретные источники (т.е. файлы, которые я ему передаю)
Связанный: Программное обеспечение для обнаружения плагиата/веб-сайт для научной диссертации/статьи

LetMeSOThat4U · Answer 1

Это инструмент, который делает все это: http://ssdeep.sourceforge.net

Он в основном предназначен для компьютерной криминалистики — обнаружения похожих, модифицированных, измененных или усеченных файлов.

Я успешно использовал его для борьбы со спамом, обнаруживая электронные письма, которые были изменены в степени от незначительной до значительной по сравнению с другими электронными письмами и образцами спама.

Я думаю, что он подойдет для вашей цели, потому что он имеет настраиваемую «чувствительность» к изменениям и способен обнаруживать похожие фрагменты, см. здесь для демонстрации:

http://ssdeep.sourceforge.net/usage.html#иглы

Предупреждение: я использовал разделяемую библиотеку напрямую через Python cffi ( https://cffi.readthedocs.org/en/latest/ ), а не сам инструмент командной строки, хотя у ssdeep есть утилита командной строки. Тем не менее, использование cffi для вызовов библиотеки ssdeep было более мощным, чем командная строка, и очень простым.

Стив Барнс · Answer 2

Я подумал, что вы, вероятно, могли бы использовать Python и SciPy NLTK для создания списка предложений из каждого из ваших текстов, которые, по вашему мнению, могут быть плагиатом из-за использования tokenize — я бы предложил удалить из них знаки препинания и исключить все предложения с менее чем 5 или 6 слов и их сохранение, возможно, с какими-то ссылками на то, где они встречаются в исходном тексте.

Затем вы можете применить тот же алгоритм к своим подозрительным текстам и проверить совпадения.

Бесплатно и как в пиве и как птица.
Практически любая платформа, на которой может быть установлен Python, включая Windows.
Интерфейс командной строки — да, если вы не предоставите ему графический интерфейс.
Выходные данные могут быть примерно такими, какие вам нравятся.
Из ваших приятных вещей вы можете добавить одно или оба.

Должны быть решения, отличные от ручного кодирования. Хотя у этого есть тег сценария оболочки, я бы не стал интерпретировать его как открытый для библиотек + Создайте свой собственный в качестве решения.
@Oxinabox одна из приятных особенностей мира FOSS заключается в том, что вы можете «свернуть свое собственное», когда никто другой не предлагает подходящее «без привязки».

Программное обеспечение для обнаружения локального плагаризма

соандос

Стив Барнс

соандос

Кенорб

Ответы (2)

LetMeSOThat4U

Стив Барнс

Кадры Кэтрин Уайт

Стив Барнс

Выпадающий терминал в стиле Quake для Windows

Очень простая программа командной строки для расширения макросов в Linux и Windows

Простой бесплатный инструмент для резервного копирования SD-карты на ПК

Photoshop Экспресс Альтернатива

Облегченные рекомендации по управлению личными документами (с открытым исходным кодом/.net)

MBox Viewer для больших файлов

Проектирование стрипбордов (макетных плат)

Просматривайте пропускную способность сети в реальном времени на процесс в оболочке Linux

Текстовый поиск по дереву каталогов - без необходимости предварительного создания какого-либо индекса

Анализатор APK для Linux