Я ищу программное обеспечение на стороне сервера для анализа очень большого количества электронных писем и извлечения подписи электронной почты. В частности, я хочу ввести тело почтового сообщения, определить подпись и извлечь данные.
Наиболее важной особенностью является хорошо написанное распознавание образов. На самом деле, я был бы доволен текстовым синтаксическим анализатором, поскольку мне удобно предоставлять только тело в виде большой строки.
Меня не волнует язык.
Вы можете сделать это очень просто, либо на стороне клиента, либо на стороне сервера, используя некоторые сценарии Python .
Python, используя только встроенные библиотеки, может:
К сожалению, существует несколько непоследовательных способов обозначения подписи: Моя подпись, созданная Thunderbird, Outlook и т. д.:
--
Steve (Gadget) Barnes
Any opinions in this message are my personal opinions and do not reflect those of my employer.
Обратите внимание на строку, содержащую только дефис, дефис, пробел — это «стандарт», но некоторые другие клиенты прикрепляют файлы, изображения, груды html и т. д. Аналогичным образом, соглашения относительно размещения нового контента сверху, снизу или с чередованием в электронном письме exchange в значительной степени является вопросом соглашения, и маркировка ранее полученного текста с помощью отступа или добавления префикса каждой строки из предыдущего сообщения >
или некоторых других символов снова зависит как от почтового клиента, так и часто от настроек пользователя.
Я бы предложил использовать метод пошагового поиска, где, возможно, вы пытаетесь найти:
-- \n
за которым следует одна или несколько непустых строк. f1=re.compile(r'^-- \n(.+)', flags=re.MULTILINE+re.DOTALL)
должен сделать красиво.При разработке вашего набора регулярных выражений я настоятельно рекомендую использовать средство проверки регулярных выражений Python, такое как pythex .
Конечно, это осложняется тем, что есть возможность прикрепить визитную карточку, отсканированную подпись и т. д., а также тот факт, что любое данное сообщение может быть простым текстом, html или и тем, и другим, и что больше всего раздражает, некоторые люди просто отправляют слово, или другое, документ как электронная почта .
Насколько мне известно, в настоящее время нет библиотеки, которая охватывает все эти возможности, возможно, вы могли бы внести свой вклад в свое время.
Мика
Стив Барнс