Инджестор Iceberg
Настройка, предварительные условия и разрешения
Ролевая модель реализуется через Iceberg.
Возможности платформы (Important Capabilities)
| Название | Описание | Поддерживается | Настройки |
|---|---|---|---|
| Schema Metadata | Вкладка Schema: схема датасета | Да | Включено по умолчанию. |
| Schema Metadata для view | Вкладка Schema: схема датасета | Нет | Не извлекается из-за ограничений технологии |
| Descriptions | Вкладка Documentation: текстовое описание объекта | Нет | |
| Data Lineage | Вкладка Lineage: внутренний lineage источника | Нет | |
| Properties | Вкладка Properties: системные поля | Да | Включено по умолчанию. |
| Dataset Usage & Query History | Вкладка Queries: запросы и историческая информация о датасете | Нет | |
| Data Profiling (Профилирование данных) | Вкладка Stats: количество строк, столбцов, статистики и графики | Да | Отключено по умолчанию. Настраивается в рецепте, в разделе profiling. |
| DQ Checks | Вкладка DQ Checks: проверка качества данных | Нет | |
| Platform Instance | Наличие у объекта связи с платформ инстансом | Да | Включено по умолчанию. Настраивается в рецепте. |
| Critical data | Чекбокс Critical полей | Да | Включено по умолчанию. Можно редактировать через Excel. |
| Ownership | Наличие у объекта владельца | Да | Это должен отдавать REST Catalog. В рецепте можно настраивать маппинг, в каком атрибуте REST Catalog отдает ownership |
| Detect deleted entities | Проверка удалены ли данные в источнике. | Да | Отключено по умолчанию. Настраивается в рецепте, в разделе stateful ingestion. |
| Status | Пометить удаленным | Да | Включено по умолчанию. |
| Tags | Наличие у объекта тега | Нет | |
| Glossary Term | Наличие у объекта связи с термином | Нет | |
| Domains (Домены) | Наличие у объекта связи с доменом | Нет |
Пример рецепта
pipeline_name: TEST_ICEBERG_PIPELINE
source:
type: iceberg
config:
platform_instance: TEST_ICEBERG_PI
stateful_ingestion:
enabled: true # Признак включения режима 'Stateful ingesting' - загружаемые данные имеют приоритет над загруженными ранее. Если в загружаемых отсутствуют таблицы/поля - они не будут отображаться в Каталоге после загрузки
namespace_pattern: # Regex паттерны для разрешения/исключения схем, по умолчанию allow: ['.*'], deny: ['information_schema'], ignoreCase: True
allow: [ 'tenant_1' ] # Подробности заполнения данного блока смотрите на странице Паттерны (раздел Установка инджесторов)
deny: [ ]
ignoreCase: False
table_pattern: # Regex паттерны для разрешения/исключения таблиц, по умолчанию allow: ['.*'], deny: [], ignoreCase: True. Формат - база.схема.паттерн_таблицы, например, для извлечения таблиц из базы customers, начинающихся с mobile_ - customers.public.mobile_*
allow: [ 'tenant_1.*' ] # Подробности заполнения данного блока смотрите на странице Паттерны (раздел Установка инджесторов)
deny: [ ]
ignoreCase: True
catalog:
default:
type: rest
uri: 'http://127.0.0.1:8181'
token: 'token_value' # Необязательный параметр.
s3.access-key-id: admin
s3.secret-access-key: password
s3.region: eu-east-1 # Необязательный параметр.
s3.endpoint: 'http://127.0.0.1:9000'
sink:
type: catalog-rest
config:
server: 'https://dgms.data.mts-corp.ru'
token: '********'