Инструмент с открытым исходным кодом для создания парсера ETL

Мне нужно создать парсер ETL на Java. Существует ли какой-либо инструмент или инфраструктура с открытым исходным кодом для создания синтаксического анализатора ETL для неструктурированных данных.

Я хочу создать синтаксический анализатор, и мне нужно определить формат в файле свойств, а синтаксический анализатор должен иметь возможность анализировать в соответствии с форматом в файле свойств.

Я не прошу полный код. Буду признателен за любое предложение.

Что вы подразумеваете под "ETL". ETL как в "Извлечение", "Перенос", "Загрузка"?
Excatly, извлечение, передача, загрузка..!

Ответы (3)

Для создания простых и сложных процессов ETL я рекомендую Kettle. В настоящее время называется Pentaho Data Integration. Написан на Java с приятным графическим интерфейсом и легко интегрируется в программное обеспечение Java. Источник доступен. См. веб-сайт .

Спрашивал в опенсорсе.. кажется чайник не опенсорсный..!
См. community.pentaho.com/faq/general.php и oss-watch.ac.uk/resources/apache2 . На мой взгляд, Apache License v2 является открытым исходным кодом. Для чего вам это нужно, или у вас есть определенная форма лицензии, необходимая для вашего проекта, такая как GPL, LGPL или BSD?

Единственная среда с открытым исходным кодом, которую я знаю (и использовал) для обработки ETL в java, — это Spring-Batch , и это единственная реализация (насколько мне известно) jsr-352.
Я не уверен, подходит ли он вам, потому что в простом поиске в Google я нашел несколько чистых фреймворков ETL, таких как CloverETL , но я еще не пробовал их, поэтому у меня нет мнения. До сих пор я использовал Spring-Batch для ETL и пакетной обработки почти 6 месяцев, и я вполне доволен этим :)
Надеюсь, я немного помог!

спасибо за ответ, я открываю этот вопрос для еще одного предложения .. +1 ..
Spring-Batch — пакетный процессор. Хотя теоретически его можно использовать для создания инструмента ETL, он не добавляет большой ценности и не предоставляет компонентов, помогающих с ETL. Вы должны сосредоточить свой ответ на CloverETL, который в тысячу раз больше подходит в качестве ETL-фреймворка :-) Спасибо!
@NicolasRaoul позвольте мне не согласиться, говоря, что SB - это всего лишь пакетный процессор, это все равно, что сказать, что транспортные средства не должны перевозить предметы, потому что они созданы для перевозки людей. SB действительно популярен для обработки ETL (поэтому я и ответил), если у пользователя есть базовые знания java, и поиск в Google может это доказать :). С другой стороны, я не могу сосредоточиться на CloverETL, потому что я никогда не использовал его и не собираюсь, я выполняю задания ETL с SB. По правде говоря, я считаю, что SB более подходит для этого вопроса, чем Clover, потому что это JAVA-FRAMEWORK , как следует из вопроса.
Интересно! Добавление этой информации к ответу было бы здорово :-)

Для полной прозрачности я работаю в Talend.

У Talend есть версия наших возможностей интеграции данных с открытым исходным кодом, которая называется Talend Open Studio. Результатом заданий Talend ETL является собственный код. Для традиционных систем это будет Java.

Talend Open Studio имеет более 3 миллионов загрузок и большое сообщество пользователей на https://www.talendforge.org/ .