Мне нужно создать парсер ETL на Java. Существует ли какой-либо инструмент или инфраструктура с открытым исходным кодом для создания синтаксического анализатора ETL для неструктурированных данных.
Я хочу создать синтаксический анализатор, и мне нужно определить формат в файле свойств, а синтаксический анализатор должен иметь возможность анализировать в соответствии с форматом в файле свойств.
Я не прошу полный код. Буду признателен за любое предложение.
Для создания простых и сложных процессов ETL я рекомендую Kettle. В настоящее время называется Pentaho Data Integration. Написан на Java с приятным графическим интерфейсом и легко интегрируется в программное обеспечение Java. Источник доступен. См. веб-сайт .
Единственная среда с открытым исходным кодом, которую я знаю (и использовал) для обработки ETL в java, — это Spring-Batch , и это единственная реализация (насколько мне известно) jsr-352
.
Я не уверен, подходит ли он вам, потому что в простом поиске в Google я нашел несколько чистых фреймворков ETL, таких как CloverETL , но я еще не пробовал их, поэтому у меня нет мнения. До сих пор я использовал Spring-Batch для ETL и пакетной обработки почти 6 месяцев, и я вполне доволен этим :)
Надеюсь, я немного помог!
Для полной прозрачности я работаю в Talend.
У Talend есть версия наших возможностей интеграции данных с открытым исходным кодом, которая называется Talend Open Studio. Результатом заданий Talend ETL является собственный код. Для традиционных систем это будет Java.
Talend Open Studio имеет более 3 миллионов загрузок и большое сообщество пользователей на https://www.talendforge.org/ .
Гвидо Лендерс
БлэкПОП