Skip to content

Командная строка для обновления аналитических представлений

Аналитические представления включают:

  • input_daily_stats, input_weekly_stats, input_monthly_stats
  • output_daily_stats, output_weekly_stats, output_monthly_stats

Содержимое представлений основано на данных в таблицах output и input и имеет следующую структуру:

  • dataset_name - Название набора данных.
  • dataset_location - Название расположения набора данных (например: имя кластера).
  • dataset_location_type - Тип расположения набора данных (например: hive, hdfs, postgres).
  • user_id - Внутренний идентификатор пользователя.
  • user_name - Внутреннее имя пользователя (например: имя пользователя, который запустил Spark задачу).
  • last_interaction_dt - Время последнего взаимодействия пользователя с набором данных. Чтение или запись зависит от базовой таблицы.
  • num_of_interactions - Количество взаимодействий в заданном интервале.
  • sum_bytes - Сумма байтов в заданном интервале.
  • sum_rows - Сумма строк в заданном интервале.
  • sum_files - Сумма файлов в заданном интервале.

Мы предоставляем три типа представлений: day (день), week (неделя) и month (месяц), основанные на временном периоде, в котором происходит агрегация.

По умолчанию эти материализованные представления пустые (WITH NO DATA). Для заполнения этих таблиц данными необходимо запустить скрипт обновления (см. ниже).