MWS Data Compass
MWS Data Compass – инструмент визуализации и анализа данных. Регулярная и ad-hoc аналитика при помощи дэшбордов, графиков.
Какие сущности извлекаются из Data Compass
- Воркспейсы,
- Дашборды,
- Чарты
- Наборы данных
Работа с владельцами
Владельцы извлекаются для воркспейсов, дашбордов, чартов и датасетов. Они переписываются каждый раз в процессе работы инжесторов - через интерфейс их редактировать не следует.
Data lineage
Data lineage извлекается между чартами и наборами данных в Compass и между наборами данных в Compass и наборами данных в Источнике.
Меппинг источников
Меппинг источников происходит через host:port. При получении из Compass датасета в его атрибутах присутствует host:port источника, откуда берутся данные для чарта; в Cat по host:port находится соответствие для этого источника и добавляется связь lineage между конкретным датасетом источника и датасетом Compass.
При инжестинге виртуальные датасеты становятся представлениями, а физические наборы данных – таблицами.
Настройка, предварительные условия и разрешения
Учетная запись, используемая для подключения инжестора Compass, должна обладать правами администратора для возможности извлечения всех дашбордов и чартов.
Возможности платформы (Important Capabilities)
| Название | Описание | Поддерживается | Настройки |
|---|---|---|---|
| Schema Metadata | Вкладка Schema: схема датасета | Да | |
| Descriptions | Вкладка Documentation: текстовое описание объекта | Да | Включено по умолчанию. Можно редактировать через Excel. |
| Data Lineage | Вкладка Lineage | Да | |
| Properties | Вкладка Properties: системные поля | Да | Включено по умолчанию. Настраивается в рецепте с помощью трансформеров. |
| Dataset Usage & Query History | Вкладка Queries: запросы и историческая информация о датасете. | Нет | |
| Data Profiling (Профилирование данных) | Вкладка Stats: количество строк, столбцов, статистики и графики | Нет | |
| DQ Checks | Вкладка DQ Checks: проверка качества данных | Нет | |
| Platform Instance | Наличие у объекта связи с платформ инстансом | Нет | |
| Critical data | Чекбокс Critical полей | Да | Включено по умолчанию. Можно редактировать через Excel. |
| Ownership | Наличие у объекта владельца | Да | Включено по умолчанию. Их переписываем каждый раз у себя в процессе работе инжесторов. Через интерфейс их нет смысла редактировать |
| Detect deleted entities | Проверка удалены ли данные в источнике. | Да | Отключено по умолчанию. Настраивается в рецепте, в разделе stateful ingestion. |
| Status | Пометить удаленным | Да | Включено по умолчанию. Можно редактировать с помощью трансформеров. |
| Tags | Наличие у объекта тега | Да | Включено по умолчанию. Можно редактировать через Excel и с помощью трансформеров. |
| Glossary Term | Наличие у объекта связи с термином | Да | Включено по умолчанию. Можно редактировать через Excel или с помощью трансформеров. |
| Domains (Домены) | Наличие у объекта связи с доменом | Да | Enabled via stateful ingestion. Можно редактировать через Excel или с помощью трансформеров. |
Пример рецепта
Для получения деталей о добавлении паттернов для баз данных, схем, представлений, таблиц можно обратиться к странице паттернов
source:
type: compass
config:
connect_uri: 'http://localhost:8088' # Хост superset
username: user # Пользователь
password: password # Пароль
provider: ldap # Провайдер для аутентификации
stateful_ingestion:
enabled: true # Признак включения режима "Stateful ingesting" - загружаемые данные имеют приоритет над загруженными ранее. Если в загружаемых отсутствуют эндпоинты/поля - они не будут отображаться в Каталоге
extract_dashboard_view_count: true # Признак извлечения количества просмотров дэшбордов за последние 3 дня. Необязательный параметр - по умолчанию ставится в 'true'.
pipeline_name: 'Сюда_подставить_имя_pipeline'
sink:
type: catalog-rest
config:
server: 'https://gms.datacatalog.ru'
token: '********'
transformers:
- type: 'add_digital_products'
config:
digital_products: ['PRODUCT_ID1','PRODUCT_ID2'] # Список продуктов из мастер-системы, с которыми будут связаны все объекты, создаваемые по результатам инджестинга.