Есть ли инструмент, в который я могу отправить текстовый файл или другой файл, который будет идентифицировать необычные слова (не в списке стоп-слов) в Linux?
Например, слова, которые обычно встречаются на английском языке, будут исключены, но слова технического жаргона будут отображаться как непрерывные (необычные) слова со счетом. Он также должен быть чувствителен к регистру.
Вот пример того, что я имею в виду...
Если у меня есть предложение:
«Томми программировал в Powershell, PowerShell, C++ и SQL, используя VirtualBox на своем VirtualBox».
Тогда он вернет такой результат:
1, Powershell
1, PowerShell
1, C++
1, SQL
2, VirtualBox
Я думаю, что я пытаюсь стандартизировать регистр необычных слов, и инструмент возьмет текст и попытается найти его, поэтому, когда я его исправлю, я знаю, что все понял.
Я знаю, что вы можете искать что-то с помощью vim, но гораздо проще ничего не пропустить, если у вас уже есть список слов, которые нужно игнорировать (стоп-слова), которые позволяют легко отделить стоп-слова от уникальных.
(И, конечно же, вы всегда можете удалить любые слова, такие как «Ruby», из списка стоп-слов, чтобы они тоже появлялись, когда вам это нужно)
Я имею в виду, что на самом деле все, что вам нужно, это список слов и сценарий для их просмотра, но я решил спросить, нет ли уже готового инструмента для этого.
Набор инструментов Python Natural Language Tool Kit nltk , вероятно, является вашим лучшим выбором. В онлайн -книге есть примеры того, что вы пытаетесь сделать, например , пример с необычными словами .
Николя Рауль