Skip to content

Описание Data.Rentgen

Data.Rentgen - это сервис по сбору и хранению lineage, совместимый со спецификацией OpenLineage. Поддерживаются следующие источники:

  • Apache Spark
  • Apache Airflow
  • Apache Hive
  • Apache Flink
  • Dbt

Сервис постоянно развивается и список источников будет расширяться со временем.

Отличительные особенности Data.Rentgen

  • Совместимость Сбор lineage, генерируемого клиентами и интеграциями OpenLineage -- открытого стандарта сбора сведений о происхождении данных.

  • Более глубокая детализация Хранение детализированных данных об операциях (а не событий уровня задачи, как например в Marquez).

  • Использование API: Предоставление API для получения как lineage на уровне job/run ↔ dataset, так и lineage на уровне dataset ↔ dataset.

  • Поддержка больших объемов данных: Поддержка обработки большого количества событий lineage, благодаря использованию Apache Kafka в качестве буфера событий.

  • Табличное хранение данных: Хранение данных в таблицах, секционированных по временным меткам, для ускорения анализа графа lineage.

  • Гибкие временные границы: Граф lineage строится по всем запускам (run), попадающим в указанные пользователем временные рамки (в отличие от Marquez, где граф строится только для последнего запуска).

  • Глубокая детализация: Граф lineage можно строить с различной степенью детализации, например, группируя отдельные команды по Spark applicationId или Spark applicationName.

  • Поддержка столбцов: Поддерживается lineage на уровне столбцов.

  • Поддержка аутентификации: поддерживается широкий набор провайдеров аутентификации, начиная от простых и заканчивая сложными корпоративными стандартами в этой области.

Сделано дата-инженерами для дата-инженеров

Зачем использовать Data.Rentgen?

Чтобы иметь возможность:

  1. Работать с большими объемами lineage
  2. Качественного и глубокого анализа данных
  3. Использовать проверенное решение, ежедневно применяемое в крупнейших корпорациях
  4. Стандартизировать процессы анализа данных

Кто, кроме МТС использует onETL

  • АФК
  • МТС-Банк
  • РТК
  • ...

Примеры графов

Граф lineage

Граф lineage на уровне набора данных (dataset)

lineage на уровне dataset

Граф lineage на уровне столбцов

lineage на уровне столбцов

Граф lineage на уровне Job

lineage на уровне Job

Граф lineage на уровне запусков (run)

lineage на уровне Run

Наборы данных (dataset)

Список набора данных dataset

Запуски (Run)

Список Run

Приложение Apache Spark

Детальное описание Spark application

Запуск Apache Spark

Детальное описание запуска (run) Spark

Команда Apache Spark

Детальное описание команд Spark

Запрос Apache Hive

Детали запрос к Hive

Airflow DagRun

Детали запуска ОАГ (DagRun) Airflow

Airflow TaskInstance

Детали экзепляра задачи (TaskInstance) Airflow

Подключайтесь и растите вместе с нами!