Skip to content

Инджестор Elasticsearch

Настройка, предварительные условия и разрешения

При включенных security features у пользователя должны быть:

monitor или manage кластерная привилегия и индексная привилегия

Более подробно о security privileges описано в документации elasticsearch

Возможности платформы (Important Capabilities)

Название Описание Поддерживается Настройки
Schema Metadata Вкладка Schema: схема датасета Да Включено по умолчанию.
Descriptions Вкладка Documentation: текстовое описание объекта Да Включено по умолчанию. Можно редактировать через Excel.
Data Lineage Вкладка Lineage: внутренний lineage источника Нет
Properties Вкладка Properties: системные поля Да Включено по умолчанию. Настраивается в рецепте с помощью трансформеров.
Dataset Usage & Query History Вкладка Queries: запросы и историческая информация о датасете. Нет
Data Profiling (Профилирование данных) Вкладка Stats: количество строк, столбцов, статистики и графики Да Отключено по умолчанию. Настраивается в рецепте, в разделе profiling.
DQ Checks Вкладка DQ Checks: проверка качества данных Да Отключено по умолчанию. Настраивается с помощью дополнительного инджестора.
Platform Instance Наличие у объекта связи с платформ инстансом Да Включено по умолчанию. Настраивается в рецепте.
Critical data Чекбокс Critical полей Да Включено по умолчанию. Можно редактировать через Excel.
Ownership Наличие у объекта владельца Да Включено по умолчанию. Можно редактировать через Excel или с помощью трансформеров.
Detect deleted entities Проверка удалены ли данные в источнике. Да Отключено по умолчанию. Настраивается в рецепте, в разделе stateful ingestion.
Status Пометить удаленным Да Включено по умолчанию. Можно редактировать с помощью трансформеров.
Tags Наличие у объекта тега Да Включено по умолчанию. Можно редактировать через Excel и с помощью трансформеров.
Glossary Term Наличие у объекта связи с термином Да Включено по умолчанию. Можно редактировать через Excel или с помощью трансформеров.
Domains (Домены) Наличие у объекта связи с доменом Да Настраивается в рецепте, в разделе stateful ingestion, или с помощью Form. Можно редактировать через Excel или с помощью трансформеров.

Пример рецепта

Для получения деталей о добавлении паттернов для баз данных, схем, представлений, таблиц можно обратиться к странице паттернов

source:
  type: elasticsearch
  config:
    host: localhost:9000       # Хост и порт сервера
    username: user             # Пользователь
    password: pass             # Пароль
    platform_instance: 'Сюда_подставить_platform_instance'
    stateful_ingestion:
      enabled: true            # Признак включения режима "Stateful ingesting" - загружаемые данные имеют приоритет над загруженными ранее. Если в загружаемых отсутствуют таблицы/поля - они не будут отображаться в Каталоге после загрузки
    index_pattern:             # Необязательный параметр. Regex паттерны для разрешения/исключения индексов, по умолчанию allow: ['.*'], deny: ["^_.*", "^ilm-history.*"], ignoreCase: True
      allow: ['.*']            # Подробности заполнения данного блока смотрите на странице Паттерны (раздел Установка инджесторов) 
      deny: ["^_.*", "^ilm-history.*"]
      ignoreCase: True
    index_template_pattern:    # Необязательный параметр. Regex паттерны для разрешения/исключения шаблонов индексов, по умолчанию allow: ['.*'], deny: ["^_.*"], ignoreCase: True.
      allow: ['.*']            # Подробности заполнения данного блока смотрите на странице Паттерны (раздел Установка инджесторов) 
      deny: ["^_.*"]
      ignoreCase: True
    # Опционально: конфигурация SSL для подключения к источнику
    # use_ssl: False
    # verify_certs: False
    # ca_certs: '<<path_to_ca_certs>>'
    # client_cert: '<<path_to_client_cert>>'
    # client_key: '<<path_to_client_key>>'
    # ssl_assert_hostname: False
    # ssl_assert_fingerprint: '<<path_to_cert_fingerprint>>'
pipeline_name: 'Сюда_подставить_имя_pipeline'
sink:
  type: catalog-rest
  config:
    server: 'https://gms.datacatalog.ru'
    token: '********'
transformers:
  - type: 'add_digital_products'
    config:
      digital_products: ['PRODUCT_ID1','PRODUCT_ID2']  # Список продуктов из мастер-системы, с которыми будут связаны все объекты, создаваемые по результатам инджестинга.