Skip to content

MWS Data Compass

MWS Data Compass – инструмент визуализации и анализа данных. Регулярная и ad-hoc аналитика при помощи дэшбордов, графиков.

Какие сущности извлекаются из Data Compass

  1. Воркспейсы,
  2. Дашборды,
  3. Чарты
  4. Наборы данных

Работа с владельцами

Владельцы извлекаются для воркспейсов, дашбордов, чартов и датасетов. Они переписываются каждый раз в процессе работы инжесторов - через интерфейс их редактировать не следует.

Data lineage

Data lineage извлекается между чартами и наборами данных в Compass и между наборами данных в Compass и наборами данных в Источнике.

Меппинг источников

Меппинг источников происходит через host:port. При получении из Compass датасета в его атрибутах присутствует host:port источника, откуда берутся данные для чарта; в Cat по host:port находится соответствие для этого источника и добавляется связь lineage между конкретным датасетом источника и датасетом Compass.

При инжестинге виртуальные датасеты становятся представлениями, а физические наборы данных – таблицами.

Настройка, предварительные условия и разрешения

Учетная запись, используемая для подключения инжестора Compass, должна обладать правами администратора для возможности извлечения всех дашбордов и чартов.

Возможности платформы (Important Capabilities)

Название Описание Поддерживается Настройки
Schema Metadata Вкладка Schema: схема датасета Да
Descriptions Вкладка Documentation: текстовое описание объекта Да Включено по умолчанию. Можно редактировать через Excel.
Data Lineage Вкладка Lineage Да
Properties Вкладка Properties: системные поля Да Включено по умолчанию. Настраивается в рецепте с помощью трансформеров.
Dataset Usage & Query History Вкладка Queries: запросы и историческая информация о датасете. Нет
Data Profiling (Профилирование данных) Вкладка Stats: количество строк, столбцов, статистики и графики Нет
DQ Checks Вкладка DQ Checks: проверка качества данных Нет
Platform Instance Наличие у объекта связи с платформ инстансом Нет
Critical data Чекбокс Critical полей Да Включено по умолчанию. Можно редактировать через Excel.
Ownership Наличие у объекта владельца Да Включено по умолчанию. Их переписываем каждый раз у себя в процессе работе инжесторов. Через интерфейс их нет смысла редактировать
Detect deleted entities Проверка удалены ли данные в источнике. Да Отключено по умолчанию. Настраивается в рецепте, в разделе stateful ingestion.
Status Пометить удаленным Да Включено по умолчанию. Можно редактировать с помощью трансформеров.
Tags Наличие у объекта тега Да Включено по умолчанию. Можно редактировать через Excel и с помощью трансформеров.
Glossary Term Наличие у объекта связи с термином Да Включено по умолчанию. Можно редактировать через Excel или с помощью трансформеров.
Domains (Домены) Наличие у объекта связи с доменом Да Enabled via stateful ingestion. Можно редактировать через Excel или с помощью трансформеров.

Пример рецепта

Для получения деталей о добавлении паттернов для баз данных, схем, представлений, таблиц можно обратиться к странице паттернов

source:
    type: compass
    config:
        connect_uri: 'http://localhost:8088'      # Хост superset
        username: user                            # Пользователь
        password: password                        # Пароль
        provider: ldap                            # Провайдер для аутентификации
        stateful_ingestion:
            enabled: true                         # Признак включения режима "Stateful ingesting" - загружаемые данные имеют приоритет над загруженными ранее. Если в загружаемых отсутствуют эндпоинты/поля - они не будут отображаться в Каталоге
        extract_dashboard_view_count: true        # Признак извлечения количества просмотров дэшбордов за последние 3 дня. Необязательный параметр - по умолчанию ставится в 'true'.     
pipeline_name: 'Сюда_подставить_имя_pipeline'
sink:
    type: catalog-rest
    config:
        server: 'https://gms.datacatalog.ru'
        token: '********'
transformers:
  - type: 'add_digital_products'
    config:

      digital_products: ['PRODUCT_ID1','PRODUCT_ID2']  # Список продуктов из мастер-системы, с которыми будут связаны все объекты, создаваемые по результатам инджестинга.