Skip to content

Документация MWS Data Lakehouse

Версия 1.17

Введение

MWS Data LakeHouse — это современная платформа для работы с большими данными, построенная на принципе разделения вычислительных ресурсов (compute) и хранилища (storage).

Целевая аудитория: Дата-инженеры, аналитики данных и все специалисты, участвующие в процессах загрузки и обработки данных.

Быстрый старт

  1. Получите доступы к вашему неймспейсу в LakeHouse
  2. Изучите основные сервисы через KubeSphere
  3. Начните работу с JupyterHub для отладки кода
  4. Создайте первый ETL-проект по инструкции ниже

Архитектура и концепция

Основные отличия от Hadoop

Аспект Hadoop LakeHouse
Архитектура Связанные compute и storage Раздельные compute и storage
Масштабируемость Вертикальная (добавление узлов) Горизонтальная (независимое scaling)
Управление ресурсами Жесткое выделение Эластичное распределение
Стоимость Капитальные затраты Операционные затраты

Ключевые компоненты стека LakeHouse:

  • Compute: Kubernetes, Spark, StarRocks
  • Storage: S3-совместимое объектное хранилище
  • Табличный формат: Apache Iceberg
  • Каталог метаданных: Iceberg REST
  • Оркестрация: Airflow 2.0

Навигация по документации