Описание Data.Rentgen
Data.Rentgen - это сервис по сбору и хранению lineage, совместимый со спецификацией OpenLineage. Поддерживаются следующие источники:
- Apache Spark
- Apache Airflow
- Apache Hive
- Apache Flink
- Dbt
Сервис постоянно развивается и список источников будет расширяться со временем.
Отличительные особенности Data.Rentgen
-
Совместимость Сбор lineage, генерируемого клиентами и интеграциями OpenLineage -- открытого стандарта сбора сведений о происхождении данных.
-
Более глубокая детализация Хранение детализированных данных об операциях (а не событий уровня задачи, как например в Marquez).
-
Использование API: Предоставление API для получения как lineage на уровне job/run ↔ dataset, так и lineage на уровне dataset ↔ dataset.
-
Поддержка больших объемов данных: Поддержка обработки большого количества событий lineage, благодаря использованию Apache Kafka в качестве буфера событий.
-
Табличное хранение данных: Хранение данных в таблицах, секционированных по временным меткам, для ускорения анализа графа lineage.
-
Гибкие временные границы: Граф lineage строится по всем запускам (run), попадающим в указанные пользователем временные рамки (в отличие от Marquez, где граф строится только для последнего запуска).
-
Глубокая детализация: Граф lineage можно строить с различной степенью детализации, например, группируя отдельные команды по Spark applicationId или Spark applicationName.
-
Поддержка столбцов: Поддерживается lineage на уровне столбцов.
-
Поддержка аутентификации: поддерживается широкий набор провайдеров аутентификации, начиная от простых и заканчивая сложными корпоративными стандартами в этой области.
Сделано дата-инженерами для дата-инженеров
Зачем использовать Data.Rentgen?
Чтобы иметь возможность:
- Работать с большими объемами lineage
- Качественного и глубокого анализа данных
- Использовать проверенное решение, ежедневно применяемое в крупнейших корпорациях
- Стандартизировать процессы анализа данных
Кто, кроме МТС использует onETL
- АФК
- МТС-Банк
- РТК
- ...
Примеры графов
Граф lineage
Граф lineage на уровне набора данных (dataset)
Граф lineage на уровне столбцов
Граф lineage на уровне Job
Граф lineage на уровне запусков (run)
Наборы данных (dataset)
Запуски (Run)
Приложение Apache Spark
Запуск Apache Spark
Команда Apache Spark
Запрос Apache Hive
Airflow DagRun
Airflow TaskInstance
Подключайтесь и растите вместе с нами!











