Предварительные требования
Note
Подключение Iceberg в onETL фактически представляет собой SparkSession, настроенный для работы с таблицами Apache Iceberg. Все перемещение данных осуществляется с помощью Spark. Каталог Iceberg (REST, Hadoop и т. д.) используется только для хранения метаданных таблиц, в то время как сами данные хранятся в хранилище (HDFS, S3 или другой поддерживаемой файловой системе).
Совместимость версий
- Каталог Iceberg: зависит от выбранной реализации (например, REST, Hadoop)
- Версии Spark: 3.2.x -- 4.0.x
- Версии Java: 8 -- 22
Смотри подробную информацию о конфигурации каталога и хранилища в официальной документации.
Установка PySpark
Для использования коннектора Iceberg необходимо установить PySpark (или добавить его в sys.path) ДО создания экземпляра коннектора.
Смотри [инструкцию по установке][DB-onetl-install-spark] для более детальной информации
Популярные реализации Metastore
Iceberg поддерживает несколько реализаций каталога. Вот некоторые популярные варианты: