Экспорт: копирование текста из pdf без разрывов строк

В дикой природе есть несколько PDF-файлов, где каждая строка текста кажется жестко закодированной, поэтому, когда я копирую текстовый блок, все приходит с ним: разрывы строк и даже разделители «-».

Мои вопросы: как создать PDF-файлы в InDesign, где этого не происходит.

Кто-нибудь знает об этом больше?

Я просто хотел бы отметить, что это серьезная проблема во многих академических статьях, и я не нашел причины/решения этой проблемы. Надеюсь на хорошие ответы!
... так что, возможно, виновата какая-то древняя функция экспорта в какой-то идиотской практике докембрийской эпохи.

Ответы (3)

Это связано с тем, что PDF-файлы можно создавать разными способами из ряда программ и онлайн-приложений. Каждый из них обрабатывает строки текста по-разному, поэтому вы никогда не сможете сказать, как на самом деле заключен текст, пока не попытаетесь скопировать и вставить его из PDF обратно в InDesign.

Однако PDF-файлы, экспортированные в InDesign, как правило, сохраняют пробелы в конце каждой строки, поэтому вам не нужно беспокоиться о вставке возврата абзаца после каждой строки. Чтобы быть уверенным на 100%, установите Create Tagged PDFфлажок при экспорте PDF-файла из InDesign. Лично я всегда устанавливаю этот флажок и включаю его во все пресеты, которые использую. Подробнее об этом варианте здесь .

Если вы столкнулись с плохо экспортированным PDF-файлом и вам нужно очистить завершающий абзац, возвращаемый после каждой строки текста, самый быстрый вариант — «Найти/Заменить». Введите ^pв Find whatполе и поставьте пробел в Change toполе. Выберите любой Storyили Selectionниже в зависимости от вашей ситуации, и это должно очистить ваш текст.

диалоговое окно поиска изменений

Один из работающих способов — экспортировать PDF-файл в формате HTML из Acrobat Pro , открыть этот файл в веб-браузере и скопировать оттуда текст.

В отличие от экспорта в текстовом формате, html обычно не разрывает строки.

Насколько мне известно, вы не можете предотвратить это от InDesign, похоже, это поведение исходит из программного обеспечения PDF или PDF. Вполне возможно, что любое программное обеспечение для публикации, использующее «текстовые рамки/блоки», будет создавать такие тексты в PDF.

Это потому, что именно так pdf-файлы распознают текст — каждая строка фактически становится абзацем (отсюда и возврат в конце). Обратного пути нет, вы должны изменить его глобально в документах, после копирования, используя функцию «Найти/Заменить» и скрытые символы.

Но есть pdf, у которых нет такого поведения. PDF, где вы можете скопировать все это без каких-либо хлопот. Мне просто интересно, как этого можно было добиться при экспорте.