Требования
Требования к окружению
Python 3.7 - 3.12
PySpark 2.3.x — 3.5.x (зависит от используемого коннектора)
Java 8+ (требуется Spark, см. Ниже)
Библиотеки Kerberos и GCC (требуются для подключения Hive, HDFS и SparkHDFS коннекторов)
Поддерживаемые хранилища
| Тип | Хранилище | Зависит от |
|---|---|---|
| База данных | Clickhouse | Apache Spark Источник данных JDBC |
| MSSQL | Apache Spark Источник данных JDBC | |
| MySQL | Apache Spark Источник данных JDBC | |
| Postgres | Apache Spark Источник данных JDBC | |
| Oracle | Apache Spark Источник данных JDBC | |
| Teradata | Apache Spark Источник данных JDBC | |
| Hive | Интеграция с Hive Apache Spark | |
| Kafka | Интеграция с Kafka Apache Spark | |
| Greenplum | VMware Коннектор Greenplum Spark | |
| MongoDB | MongoDB Spark коннектор | |
| Файл | HDFS | Клиент HDFS Python |
| S3 | Клиент minio-py | |
| SFTP | Библиотека Парамико | |
| FTP | Библиотека FTPUtil | |
| FTPS | Библиотека FTPUtil | |
| WebDAV | Библиотека WebdavClient3 | |
| Samba | Библиотека pysmb | |
| Файлы в виде датафрейма | SparkLocalFS | Файловый источник данных Apache Spark |
| SparkHDFS | Файловый источник данных Apache Spark | |
| SparkS3 | Библиотека Hadoop AWS |