Документация MWS Data Lakehouse
Версия 1.17
Введение
MWS Data LakeHouse — это современная платформа для работы с большими данными, построенная на принципе разделения вычислительных ресурсов (compute) и хранилища (storage).
Целевая аудитория: Дата-инженеры, аналитики данных и все специалисты, участвующие в процессах загрузки и обработки данных.
Быстрый старт
- Получите доступы к вашему неймспейсу в LakeHouse
- Изучите основные сервисы через KubeSphere
- Начните работу с JupyterHub для отладки кода
- Создайте первый ETL-проект по инструкции ниже
Архитектура и концепция
Основные отличия от Hadoop
| Аспект | Hadoop | LakeHouse |
|---|---|---|
| Архитектура | Связанные compute и storage | Раздельные compute и storage |
| Масштабируемость | Вертикальная (добавление узлов) | Горизонтальная (независимое scaling) |
| Управление ресурсами | Жесткое выделение | Эластичное распределение |
| Стоимость | Капитальные затраты | Операционные затраты |
Ключевые компоненты стека LakeHouse:
- Compute: Kubernetes, Spark, StarRocks
- Storage: S3-совместимое объектное хранилище
- Табличный формат: Apache Iceberg
- Каталог метаданных: Iceberg REST
- Оркестрация: Airflow 2.0
Навигация по документации
- Что такое StarRocks - обзор основной СУБД
- Архитектура системы - подробное описание архитектуры
- Настройка on-prem окружения - руководство по настройке инфраструктурной части необходимой для работы Lakehouse
- Установка и настройка - руководство по установке Lakehouse
- Работа с системой - практические примеры