Skip to content

Требования

Требования к окружению

Python 3.7 - 3.12

PySpark 2.3.x — 3.5.x (зависит от используемого коннектора)

Java 8+ (требуется Spark, см. Ниже)

Библиотеки Kerberos и GCC (требуются для подключения Hive, HDFS и SparkHDFS коннекторов)

Поддерживаемые хранилища

Тип Хранилище Зависит от
База данных Clickhouse Apache Spark Источник данных JDBC
MSSQL Apache Spark Источник данных JDBC
MySQL Apache Spark Источник данных JDBC
Postgres Apache Spark Источник данных JDBC
Oracle Apache Spark Источник данных JDBC
Teradata Apache Spark Источник данных JDBC
Hive Интеграция с Hive Apache Spark
Kafka Интеграция с Kafka Apache Spark
Greenplum VMware Коннектор Greenplum Spark
MongoDB MongoDB Spark коннектор
Файл HDFS Клиент HDFS Python
S3 Клиент minio-py
SFTP Библиотека Парамико
FTP Библиотека FTPUtil
FTPS Библиотека FTPUtil
WebDAV Библиотека WebdavClient3
Samba Библиотека pysmb
Файлы в виде датафрейма SparkLocalFS Файловый источник данных Apache Spark
SparkHDFS Файловый источник данных Apache Spark
SparkS3 Библиотека Hadoop AWS