Skip to content

Предварительные требования

Note

Подключение Iceberg в onETL фактически представляет собой SparkSession, настроенный для работы с таблицами Apache Iceberg. Все перемещение данных осуществляется с помощью Spark. Каталог Iceberg (REST, Hadoop и т. д.) используется только для хранения метаданных таблиц, в то время как сами данные хранятся в хранилище (HDFS, S3 или другой поддерживаемой файловой системе).

Совместимость версий

  • Каталог Iceberg: зависит от выбранной реализации (например, REST, Hadoop)
  • Версии Spark: 3.2.x -- 4.0.x
  • Версии Java: 8 -- 22

Смотри подробную информацию о конфигурации каталога и хранилища в официальной документации.

Установка PySpark

Для использования коннектора Iceberg необходимо установить PySpark (или добавить его в sys.path) ДО создания экземпляра коннектора.

Смотри [инструкцию по установке][DB-onetl-install-spark] для более детальной информации

Iceberg поддерживает несколько реализаций каталога. Вот некоторые популярные варианты: