Инджестор Elasticsearch
Настройка, предварительные условия и разрешения
При включенных security features у пользователя должны быть:
monitor или manage кластерная привилегия и индексная привилегия
Более подробно о security privileges описано в документации elasticsearch
Возможности платформы (Important Capabilities)
| Название | Описание | Поддерживается | Настройки |
|---|---|---|---|
| Schema Metadata | Вкладка Schema: схема датасета | Да | Включено по умолчанию. |
| Descriptions | Вкладка Documentation: текстовое описание объекта | Да | Включено по умолчанию. Можно редактировать через Excel. |
| Data Lineage | Вкладка Lineage: внутренний lineage источника | Нет | |
| Properties | Вкладка Properties: системные поля | Да | Включено по умолчанию. Настраивается в рецепте с помощью трансформеров. |
| Dataset Usage & Query History | Вкладка Queries: запросы и историческая информация о датасете. | Нет | |
| Data Profiling (Профилирование данных) | Вкладка Stats: количество строк, столбцов, статистики и графики | Да | Отключено по умолчанию. Настраивается в рецепте, в разделе profiling. |
| DQ Checks | Вкладка DQ Checks: проверка качества данных | Да | Отключено по умолчанию. Настраивается с помощью дополнительного инджестора. |
| Platform Instance | Наличие у объекта связи с платформ инстансом | Да | Включено по умолчанию. Настраивается в рецепте. |
| Critical data | Чекбокс Critical полей | Да | Включено по умолчанию. Можно редактировать через Excel. |
| Ownership | Наличие у объекта владельца | Да | Включено по умолчанию. Можно редактировать через Excel или с помощью трансформеров. |
| Detect deleted entities | Проверка удалены ли данные в источнике. | Да | Отключено по умолчанию. Настраивается в рецепте, в разделе stateful ingestion. |
| Status | Пометить удаленным | Да | Включено по умолчанию. Можно редактировать с помощью трансформеров. |
| Tags | Наличие у объекта тега | Да | Включено по умолчанию. Можно редактировать через Excel и с помощью трансформеров. |
| Glossary Term | Наличие у объекта связи с термином | Да | Включено по умолчанию. Можно редактировать через Excel или с помощью трансформеров. |
| Domains (Домены) | Наличие у объекта связи с доменом | Да | Настраивается в рецепте, в разделе stateful ingestion, или с помощью Form. Можно редактировать через Excel или с помощью трансформеров. |
Пример рецепта
Для получения деталей о добавлении паттернов для баз данных, схем, представлений, таблиц можно обратиться к странице паттернов
source:
type: elasticsearch
config:
host: localhost:9000 # Хост и порт сервера
username: user # Пользователь
password: pass # Пароль
platform_instance: 'Сюда_подставить_platform_instance'
stateful_ingestion:
enabled: true # Признак включения режима "Stateful ingesting" - загружаемые данные имеют приоритет над загруженными ранее. Если в загружаемых отсутствуют таблицы/поля - они не будут отображаться в Каталоге после загрузки
index_pattern: # Необязательный параметр. Regex паттерны для разрешения/исключения индексов, по умолчанию allow: ['.*'], deny: ["^_.*", "^ilm-history.*"], ignoreCase: True
allow: ['.*'] # Подробности заполнения данного блока смотрите на странице Паттерны (раздел Установка инджесторов)
deny: ["^_.*", "^ilm-history.*"]
ignoreCase: True
index_template_pattern: # Необязательный параметр. Regex паттерны для разрешения/исключения шаблонов индексов, по умолчанию allow: ['.*'], deny: ["^_.*"], ignoreCase: True.
allow: ['.*'] # Подробности заполнения данного блока смотрите на странице Паттерны (раздел Установка инджесторов)
deny: ["^_.*"]
ignoreCase: True
# Опционально: конфигурация SSL для подключения к источнику
# use_ssl: False
# verify_certs: False
# ca_certs: '<<path_to_ca_certs>>'
# client_cert: '<<path_to_client_cert>>'
# client_key: '<<path_to_client_key>>'
# ssl_assert_hostname: False
# ssl_assert_fingerprint: '<<path_to_cert_fingerprint>>'
pipeline_name: 'Сюда_подставить_имя_pipeline'
sink:
type: catalog-rest
config:
server: 'https://gms.datacatalog.ru'
token: '********'
transformers:
- type: 'add_digital_products'
config:
digital_products: ['PRODUCT_ID1','PRODUCT_ID2'] # Список продуктов из мастер-системы, с которыми будут связаны все объекты, создаваемые по результатам инджестинга.