Skip to content

Инджестор Iceberg

Настройка, предварительные условия и разрешения

Ролевая модель реализуется через Iceberg.

Возможности платформы (Important Capabilities)

Название Описание Поддерживается Настройки
Schema Metadata Вкладка Schema: схема датасета Да Включено по умолчанию.
Schema Metadata для view Вкладка Schema: схема датасета Нет Не извлекается из-за ограничений технологии
Descriptions Вкладка Documentation: текстовое описание объекта Нет
Data Lineage Вкладка Lineage: внутренний lineage источника Нет
Properties Вкладка Properties: системные поля Да Включено по умолчанию.
Dataset Usage & Query History Вкладка Queries: запросы и историческая информация о датасете Нет
Data Profiling (Профилирование данных) Вкладка Stats: количество строк, столбцов, статистики и графики Да Отключено по умолчанию. Настраивается в рецепте, в разделе profiling.
DQ Checks Вкладка DQ Checks: проверка качества данных Нет
Platform Instance Наличие у объекта связи с платформ инстансом Да Включено по умолчанию. Настраивается в рецепте.
Critical data Чекбокс Critical полей Да Включено по умолчанию. Можно редактировать через Excel.
Ownership Наличие у объекта владельца Да Это должен отдавать REST Catalog. В рецепте можно настраивать маппинг, в каком атрибуте REST Catalog отдает ownership
Detect deleted entities Проверка удалены ли данные в источнике. Да Отключено по умолчанию. Настраивается в рецепте, в разделе stateful ingestion.
Status Пометить удаленным Да Включено по умолчанию.
Tags Наличие у объекта тега Нет
Glossary Term Наличие у объекта связи с термином Нет
Domains (Домены) Наличие у объекта связи с доменом Нет

Пример рецепта

pipeline_name: TEST_ICEBERG_PIPELINE
source:
  type: iceberg
  config:
    platform_instance: TEST_ICEBERG_PI
    stateful_ingestion:
      enabled: true            # Признак включения режима 'Stateful ingesting' - загружаемые данные имеют приоритет над загруженными ранее. Если в загружаемых отсутствуют таблицы/поля - они не будут отображаться в Каталоге после загрузки
    namespace_pattern: # Regex паттерны для разрешения/исключения схем, по умолчанию allow: ['.*'], deny: ['information_schema'], ignoreCase: True
      allow: [ 'tenant_1' ]            # Подробности заполнения данного блока смотрите на странице Паттерны (раздел Установка инджесторов)
      deny: [ ]
      ignoreCase: False
    table_pattern: # Regex паттерны для разрешения/исключения таблиц, по умолчанию allow: ['.*'], deny: [], ignoreCase: True. Формат - база.схема.паттерн_таблицы, например, для извлечения таблиц из базы customers, начинающихся с mobile_ - customers.public.mobile_*
      allow: [ 'tenant_1.*' ]            # Подробности заполнения данного блока смотрите на странице Паттерны (раздел Установка инджесторов)
      deny: [ ]
      ignoreCase: True
    catalog:
      default:
        type: rest
        uri: 'http://127.0.0.1:8181'
        token: 'token_value'    # Необязательный параметр.
        s3.access-key-id: admin
        s3.secret-access-key: password
        s3.region: eu-east-1    # Необязательный параметр.
        s3.endpoint: 'http://127.0.0.1:9000'
sink:
  type: catalog-rest
  config:
    server: 'https://dgms.data.mts-corp.ru'
    token: '********'