Мне приходит поток отчетов, и мне нужно извлечь некоторые данные и поместить их в лучший формат (рабочий лист Excel). Отчеты приходят в формате docx или pdf и выглядят примерно так.
Miscellaneous data...................
Unneeded data.......
North South West
Name Lakeview Church Lakeview Church
Making Brick Wood
Status Gone "small checkmark"
unneeded data.......
Name Baxter Building Baxter Building
Making Brick Brick
Making Gone Great
Но текст не весь в таблицах. Некоторые из них, некоторые просто в правильно размещенных текстовых полях.
Я немного рискую здесь, но я надеялся, что будет что-то, что позволит мне создать какой-то шаблон, который извлечет соответствующие данные и реорганизует их примерно так:
Name Direction Making Status
Lakeview Church North Brick Gone
Lakeview Church South Wood Good
Кроме того, в отчетах есть небольшие изображения. Мне не нужно извлекать изображения, но если бы их можно было перевести во что-то, чтобы показать, что изображение присутствует, было бы здорово. И если бы я мог заставить его делать такие вещи, как игнорирование всего, что содержит слово «церковь» в названии на северной стороне, это было бы прекрасно.
Для решения на основе кодирования: Essential PDF , Essential DocIO можно использовать для анализа файлов PDF и Doc/Docx соответственно. Essential XlsIO можно использовать для вывода структурированных данных в Excel.
Пример извлечения текста из PDF
Весь продукт доступен бесплатно без ограничений по лицензии сообщества, если вы соответствуете требованиям (доход менее 1 миллиона долларов США).
Примечание: я работаю в Syncfusion.