Как редакторы журналов проверяют количество слов в pdf?

Я читал сообщения редакторов журналов на Academia Stack Exchange о том, что первое, что они делают, это проверяют количество слов в представленных статьях.

Как редакторы журналов проверяют количество слов присылаемых статей, учитывая, что авторы могут присылать статьи в формате pdf с большим количеством таблиц и рисунков?

Чтобы проверить свои собственные статьи, PDF-файлы, созданные в LaTeX, я открываю свой PDF-файл, выбираю все, а затем копирую и вставляю в Microsoft Word. Этот метод завышает количество слов, поскольку он включает все номера страниц и все числа внутри таблиц, но я предпочитаю его TeXcount ( http://app.uio.no/ifi/texcount/online.php ), поскольку он включает ссылки и библиографию. .

Конвертировать pdf в doc и т.д...
Вы говорите: «Я предпочитаю его TeXcount [...], так как он включает ссылки и библиографию», но TeXcount также будет считать элементы библиографии, если вы попросите его: просто передайте ему флаг «-incbib».
Мы часто превышали количество слов (для рефератов и тому подобного) и никогда не получали жалоб. Я предполагаю, что это делается только в том случае, если общая длина слишком велика (в любом случае количество слов может быть ужасным показателем длины). Обычно редакторы беспокоятся о количестве страниц.
Один из способов для менее технически подкованных: academia.stackexchange.com/q/102691/25112
Я думаю, что редакторы не заинтересованы в отклонении статей, которые немного превышают допустимое количество слов, поэтому им не нужен действительно точный подсчет. Грубого приближения достаточно для того, что они действительно хотят сделать: если рукопись слишком длинная, отклонить ее за «значительное превышение допустимого количества слов».

Ответы (2)

Я подозреваю, что во многих случаях, когда авторы отправляют PDF-файл, а редакторы не используют Linux (как это может быть во многих дисциплинах, включая большинство гуманитарных и художественных дисциплин), точное количество слов получить невозможно. Вместо этого можно определить приблизительное количество слов на основе длины и форматирования рукописи.

Подсчитайте слова в 3-х строках в разных абзацах, в среднем, затем умножьте количество строк...

Один из способов сделать это

$ pdftotext paper.pdf | туалет -ш

Эта команда работает в большинстве систем Linux, и в основном она преобразует PDF-файл в текст, а затем подсчитывает слова.