Инструмент / утилита Linux для определения не стоп-слов в английском тексте.

Есть ли инструмент, в который я могу отправить текстовый файл или другой файл, который будет идентифицировать необычные слова (не в списке стоп-слов) в Linux?

Например, слова, которые обычно встречаются на английском языке, будут исключены, но слова технического жаргона будут отображаться как непрерывные (необычные) слова со счетом. Он также должен быть чувствителен к регистру.

Вот пример того, что я имею в виду...

Если у меня есть предложение:

«Томми программировал в Powershell, PowerShell, C++ и SQL, используя VirtualBox на своем VirtualBox».

Тогда он вернет такой результат:

1, Powershell
1, PowerShell
1, C++
1, SQL
2, VirtualBox

Я думаю, что я пытаюсь стандартизировать регистр необычных слов, и инструмент возьмет текст и попытается найти его, поэтому, когда я его исправлю, я знаю, что все понял.

Я знаю, что вы можете искать что-то с помощью vim, но гораздо проще ничего не пропустить, если у вас уже есть список слов, которые нужно игнорировать (стоп-слова), которые позволяют легко отделить стоп-слова от уникальных.

(И, конечно же, вы всегда можете удалить любые слова, такие как «Ruby», из списка стоп-слов, чтобы они тоже появлялись, когда вам это нужно)

Я имею в виду, что на самом деле все, что вам нужно, это список слов и сценарий для их просмотра, но я решил спросить, нет ли уже готового инструмента для этого.

en.wikipedia.org/wiki/Stop_words говорит, что нет единого универсального списка стоп-слов, но я думаю, что спрашивающий будет в порядке с любым списком, который делает разумную работу?

Ответы (1)

Набор инструментов Python Natural Language Tool Kit nltk , вероятно, является вашим лучшим выбором. В онлайн -книге есть примеры того, что вы пытаетесь сделать, например , пример с необычными словами .

  • Существует много поддержки для подсчета вхождений
  • Я бы посоветовал вам использовать проверки без учета регистра для удаления «общих» слов перед подсчетом с учетом регистра.
  • Это python, доступный для Linux и почти всего остального .