Skip to content

Инджестор Teradata

Настройка, предварительные условия и разрешения

1) Необходимо создать пользователя, имеющего доступ к бaзе данных, из которой вы хотите получить метаданные:

CREATE USER <user> FROM <database> AS PASSWORD = <password> PERM = 20000000;

2) Этому пользователю необходимо выдать следующие привилегии:

GRANT SELECT ON dbc.columns TO <user>;

GRANT SELECT ON dbc.databases TO <user>;

GRANT SELECT ON dbc.tables TO <user>;

GRANT SELECT ON DBC.All_RI_ChildrenV TO <user>;

GRANT SELECT ON DBC.ColumnsV TO <user>;

GRANT SELECT ON DBC.IndicesV TO <user>;

GRANT SELECT ON dbc.TableTextV TO <user>;

GRANT SELECT ON dbc.TablesV TO <user>;

GRANT SELECT ON dbc.dbqlogtbl TO <user>; -- если lineage включен

GRANT SELECT ON dbc.qrylogsqlv TO <user>; -- если lineage включен

Для запуска профилирования неоходимо предоставить разрешение на выборку данных из всех таблиц, которые вы хотите профилировть.

3) Для извлечения информации о lineage: включите логирование запросов и установите соответствующий размер текста запроса (по умолчанию 200 символов, что может быть недостаточно).

Установите для всех пользователей:

REPLACE QUERY LOGGING WITH SQL LIMIT SQLTEXT = 2000 ON ALL;

Возможности платформы (Important Capabilities)

Название Описание Поддерживается Настройки
Schema Metadata Вкладка Schema: схема датасета Да Включено по умолчанию.
Descriptions Вкладка Documentation: текстовое описание объекта Да Включено по умолчанию.
Data Lineage Вкладка Lineage: внутренний lineage источника Да Включается опционально через конфигурацию
Properties Вкладка Properties: системные поля Да Включено по умолчанию. Настраивается в рецепте с помощью трансформеров.
Dataset Usage & Query History Вкладка Queries: запросы и историческая информация о датасете Да Включено по умолчанию.
Data Profiling (Профилирование данных) Вкладка Stats: количество строк, столбцов, статистики и графики Да Отключено по умолчанию. Настраивается в рецепте, в разделе profiling, или при создании источника с помощью Form.
DQ Checks Вкладка DQ Checks: проверка качества данных Да Отключено по умолчанию. Настраивается с помощью дополнительного инджестора.
Platform Instance Наличие у объекта связи с платформ инстансом Да Включено по умолчанию. Настраивается в рецепте.
Critical data Чекбокс Critical полей Да Включено по умолчанию. Можно редактировать через Excel.
Ownership Наличие у объекта владельца Да Включено по умолчанию. Можно редактировать через Excel или с помощью трансформеров.
Detect deleted entities Проверка удалены ли данные в источнике. Да Отключено по умолчанию. Настраивается в рецепте, в разделе stateful ingestion.
Status Пометить удаленным Да Включено по умолчанию. Можно редактировать с помощью трансформеров.
Tags Наличие у объекта тега Да Включено по умолчанию. Можно редактировать через Excel и с помощью трансформеров.
Glossary Term Наличие у объекта связи с термином Да Включено по умолчанию. Можно редактировать через Excel или с помощью трансформеров.
Domains (Домены) Наличие у объекта связи с доменом Да Включено по умолчанию.

Пример рецепта

Для получения деталей о добавлении паттернов для баз данных, схем, представлений, таблиц можно обратиться к странице паттернов

pipeline_name: my-teradata-ingestion-pipeline
source:
  type: teradata
  config:
    host_port: "myteradatainstance.teradata.com:1025"
    username: myuser
    password: mypassword
    database_pattern:
      allow:
        - "my_database"
      ignoreCase: true
    stateful_ingestion:
      enabled: true
    profiling:
      enabled: true
    profile_pattern:
      allow:
        - "important_db\\..*" 
sink:
    type: catalog-rest
    config:
        server: 'https://gms.datacatalog.ru'

        token: '********'
transformers:
  - type: 'add_digital_products'
    config:

      digital_products: ['PRODUCT_ID1','PRODUCT_ID2']  # Список продуктов из мастер-системы, с которыми будут связаны все объекты, создаваемые по результатам инджестинга.