Программное обеспечение для извлечения и организации текста из Docx

Мне приходит поток отчетов, и мне нужно извлечь некоторые данные и поместить их в лучший формат (рабочий лист Excel). Отчеты приходят в формате docx или pdf и выглядят примерно так.

Miscellaneous data...................    
Unneeded data.......        
             North               South            West
Name         Lakeview Church     Lakeview Church  
Making       Brick               Wood  
Status       Gone                "small checkmark"
unneeded data.......    
Name         Baxter Building                      Baxter Building
Making       Brick                                Brick
Making       Gone                                 Great

Но текст не весь в таблицах. Некоторые из них, некоторые просто в правильно размещенных текстовых полях.

Я немного рискую здесь, но я надеялся, что будет что-то, что позволит мне создать какой-то шаблон, который извлечет соответствующие данные и реорганизует их примерно так:

Name               Direction        Making          Status
Lakeview Church    North            Brick           Gone
Lakeview Church    South            Wood            Good

Кроме того, в отчетах есть небольшие изображения. Мне не нужно извлекать изображения, но если бы их можно было перевести во что-то, чтобы показать, что изображение присутствует, было бы здорово. И если бы я мог заставить его делать такие вещи, как игнорирование всего, что содержит слово «церковь» в названии на северной стороне, это было бы прекрасно.

Ответы (1)

Для решения на основе кодирования: Essential PDF , Essential DocIO можно использовать для анализа файлов PDF и Doc/Docx соответственно. Essential XlsIO можно использовать для вывода структурированных данных в Excel.

Пример извлечения текста из PDF

Таблицы в Ворде

Весь продукт доступен бесплатно без ограничений по лицензии сообщества, если вы соответствуете требованиям (доход менее 1 миллиона долларов США).

Примечание: я работаю в Syncfusion.