Инструмент / утилита Linux для определения не стоп-слов в английском тексте.

Question

Инструмент / утилита Linux для определения не стоп-слов в английском тексте.

бить
линукс
Софт
обработка текста

leeand00

Есть ли инструмент, в который я могу отправить текстовый файл или другой файл, который будет идентифицировать необычные слова (не в списке стоп-слов) в Linux?

Например, слова, которые обычно встречаются на английском языке, будут исключены, но слова технического жаргона будут отображаться как непрерывные (необычные) слова со счетом. Он также должен быть чувствителен к регистру.

Вот пример того, что я имею в виду...

Если у меня есть предложение:

«Томми программировал в Powershell, PowerShell, C++ и SQL, используя VirtualBox на своем VirtualBox».

Тогда он вернет такой результат:

1, Powershell
1, PowerShell
1, C++
1, SQL
2, VirtualBox

Я думаю, что я пытаюсь стандартизировать регистр необычных слов, и инструмент возьмет текст и попытается найти его, поэтому, когда я его исправлю, я знаю, что все понял.

Я знаю, что вы можете искать что-то с помощью vim, но гораздо проще ничего не пропустить, если у вас уже есть список слов, которые нужно игнорировать (стоп-слова), которые позволяют легко отделить стоп-слова от уникальных.

(И, конечно же, вы всегда можете удалить любые слова, такие как «Ruby», из списка стоп-слов, чтобы они тоже появлялись, когда вам это нужно)

Я имею в виду, что на самом деле все, что вам нужно, это список слов и сценарий для их просмотра, но я решил спросить, нет ли уже готового инструмента для этого.

Николя Рауль

en.wikipedia.org/wiki/Stop_words говорит, что нет единого универсального списка стоп-слов, но я думаю, что спрашивающий будет в порядке с любым списком, который делает разумную работу?

Ответы (1)

Инструмент / утилита Linux для определения не стоп-слов в английском тексте.

en.wikipedia.org/wiki/Stop_words говорит, что нет единого универсального списка стоп-слов, но я думаю, что спрашивающий будет в порядке с любым списком, который делает разумную работу?

Стив Барнс · Answer 1

Набор инструментов Python Natural Language Tool Kit nltk , вероятно, является вашим лучшим выбором. В онлайн -книге есть примеры того, что вы пытаетесь сделать, например , пример с необычными словами .

Существует много поддержки для подсчета вхождений
Я бы посоветовал вам использовать проверки без учета регистра для удаления «общих» слов перед подсчетом с учетом регистра.
Это python, доступный для Linux и почти всего остального .

Инструмент / утилита Linux для определения не стоп-слов в английском тексте.

leeand00

Николя Рауль

Ответы (1)

Стив Барнс

Какое программное обеспечение можно использовать для измерения LLOC, функциональных точек и цикломатической сложности сценариев Bash?

Прокрутка изображений через Терминал Linux

Управление длительными симуляциями

Утилита для рекурсивной обработки шаблонов текстовых файлов и заполнения заполнителей

Сортировка журналов Heroku в хронологическом порядке

Настольная публикация / макет страницы для Linux

Push-уведомления на мой Droid в локальной сети

Альтернатива Linux сводной таблице Excel

проблема с подключением adb на Kubuntu 13.04 x64

Инструмент с открытым исходным кодом для создания файлов EPUB