Инджестор Teradata
Настройка, предварительные условия и разрешения
1) Необходимо создать пользователя, имеющего доступ к бaзе данных, из которой вы хотите получить метаданные:
CREATE USER <user> FROM <database> AS PASSWORD = <password> PERM = 20000000;
2) Этому пользователю необходимо выдать следующие привилегии:
GRANT SELECT ON dbc.columns TO <user>;
GRANT SELECT ON dbc.databases TO <user>;
GRANT SELECT ON dbc.tables TO <user>;
GRANT SELECT ON DBC.All_RI_ChildrenV TO <user>;
GRANT SELECT ON DBC.ColumnsV TO <user>;
GRANT SELECT ON DBC.IndicesV TO <user>;
GRANT SELECT ON dbc.TableTextV TO <user>;
GRANT SELECT ON dbc.TablesV TO <user>;
GRANT SELECT ON dbc.dbqlogtbl TO <user>; -- если lineage включен
GRANT SELECT ON dbc.qrylogsqlv TO <user>; -- если lineage включен
Для запуска профилирования неоходимо предоставить разрешение на выборку данных из всех таблиц, которые вы хотите профилировть.
3) Для извлечения информации о lineage: включите логирование запросов и установите соответствующий размер текста запроса (по умолчанию 200 символов, что может быть недостаточно).
Установите для всех пользователей:
REPLACE QUERY LOGGING WITH SQL LIMIT SQLTEXT = 2000 ON ALL;
Возможности платформы (Important Capabilities)
| Название | Описание | Поддерживается | Настройки |
|---|---|---|---|
| Schema Metadata | Вкладка Schema: схема датасета | Да | Включено по умолчанию. |
| Descriptions | Вкладка Documentation: текстовое описание объекта | Да | Включено по умолчанию. |
| Data Lineage | Вкладка Lineage: внутренний lineage источника | Да | Включается опционально через конфигурацию |
| Properties | Вкладка Properties: системные поля | Да | Включено по умолчанию. Настраивается в рецепте с помощью трансформеров. |
| Dataset Usage & Query History | Вкладка Queries: запросы и историческая информация о датасете | Да | Включено по умолчанию. |
| Data Profiling (Профилирование данных) | Вкладка Stats: количество строк, столбцов, статистики и графики | Да | Отключено по умолчанию. Настраивается в рецепте, в разделе profiling, или при создании источника с помощью Form. |
| DQ Checks | Вкладка DQ Checks: проверка качества данных | Да | Отключено по умолчанию. Настраивается с помощью дополнительного инджестора. |
| Platform Instance | Наличие у объекта связи с платформ инстансом | Да | Включено по умолчанию. Настраивается в рецепте. |
| Critical data | Чекбокс Critical полей | Да | Включено по умолчанию. Можно редактировать через Excel. |
| Ownership | Наличие у объекта владельца | Да | Включено по умолчанию. Можно редактировать через Excel или с помощью трансформеров. |
| Detect deleted entities | Проверка удалены ли данные в источнике. | Да | Отключено по умолчанию. Настраивается в рецепте, в разделе stateful ingestion. |
| Status | Пометить удаленным | Да | Включено по умолчанию. Можно редактировать с помощью трансформеров. |
| Tags | Наличие у объекта тега | Да | Включено по умолчанию. Можно редактировать через Excel и с помощью трансформеров. |
| Glossary Term | Наличие у объекта связи с термином | Да | Включено по умолчанию. Можно редактировать через Excel или с помощью трансформеров. |
| Domains (Домены) | Наличие у объекта связи с доменом | Да | Включено по умолчанию. |
Пример рецепта
Для получения деталей о добавлении паттернов для баз данных, схем, представлений, таблиц можно обратиться к странице паттернов
pipeline_name: my-teradata-ingestion-pipeline
source:
type: teradata
config:
host_port: "myteradatainstance.teradata.com:1025"
username: myuser
password: mypassword
database_pattern:
allow:
- "my_database"
ignoreCase: true
stateful_ingestion:
enabled: true
profiling:
enabled: true
profile_pattern:
allow:
- "important_db\\..*"
sink:
type: catalog-rest
config:
server: 'https://gms.datacatalog.ru'
token: '********'
transformers:
- type: 'add_digital_products'
config:
digital_products: ['PRODUCT_ID1','PRODUCT_ID2'] # Список продуктов из мастер-системы, с которыми будут связаны все объекты, создаваемые по результатам инджестинга.