Файловая система Хранилища

Bases: IcebergWarehouse, FrozenModel

Iceberg Filesystem Warehouse.

Added in 0.15.0

Note

This warehouse uses FileDFConnection classes to access data at the warehouse location. It relies on Spark's filesystem configuration and behavior.

Parameters

connection : SparkFileDFConnection File connection for data storage

str

Warehouse path

Examples

Local filesystemHDFSS3

from onetl.connection import Iceberg, SparkLocalFS

local_fs_connection = SparkLocalFS(spark=spark)

warehouse = Iceberg.FilesystemWarehouse(
    connection=local_fs_connection,
    path="/warehouse/path",
)

from onetl.connection import Iceberg, SparkHDFS

hdfs_connection = SparkHDFS(
    host="namenode",
    cluster="my-cluster",
    spark=spark,
)

warehouse = Iceberg.FilesystemWarehouse(
    connection=hdfs_connection,
    path="/warehouse/path",
)

from onetl.connection import Iceberg, SparkS3

s3_connection = SparkS3(
    host="s3.domain.com",
    protocol="http",
    bucket="my-bucket",
    access_key="access_key",
    secret_key="secret_key",
    path_style_access=True,
    region="us-east-1",
    spark=spark,
)

warehouse = Iceberg.FilesystemWarehouse(
    connection=s3_connection,
    path="/warehouse/path"
)

Source code in onetl/connection/db_connection/iceberg/warehouse/filesystem.py

@support_hooks
class IcebergFilesystemWarehouse(IcebergWarehouse, FrozenModel):
    """Iceberg Filesystem Warehouse.

    !!! success "Added in 0.15.0"

    !!! note

        This warehouse uses **FileDFConnection** classes to access data at the warehouse location.
        It relies on **Spark's filesystem configuration and behavior**.

    Parameters
    ----------
    connection : SparkFileDFConnection
        File connection for data storage

    path : str
        Warehouse path

    Examples
    --------

    === "Local filesystem"
        ```python
        from onetl.connection import Iceberg, SparkLocalFS

        local_fs_connection = SparkLocalFS(spark=spark)

        warehouse = Iceberg.FilesystemWarehouse(
            connection=local_fs_connection,
            path="/warehouse/path",
        )
        ```
    === "HDFS"
        ```python
        from onetl.connection import Iceberg, SparkHDFS

        hdfs_connection = SparkHDFS(
            host="namenode",
            cluster="my-cluster",
            spark=spark,
        )

        warehouse = Iceberg.FilesystemWarehouse(
            connection=hdfs_connection,
            path="/warehouse/path",
        )
        ```
    === "S3"
        ```python
        from onetl.connection import Iceberg, SparkS3

        s3_connection = SparkS3(
            host="s3.domain.com",
            protocol="http",
            bucket="my-bucket",
            access_key="access_key",
            secret_key="secret_key",
            path_style_access=True,
            region="us-east-1",
            spark=spark,
        )

        warehouse = Iceberg.FilesystemWarehouse(
            connection=s3_connection,
            path="/warehouse/path"
        )
        ```
    """

    connection: SparkFileDFConnection
    path: PurePathProtocol

    @slot
    def get_config(self) -> dict[str, str]:
        config = {
            "warehouse": self.connection._convert_to_url(self.path),  # noqa: SLF001
            "io-impl": "org.apache.iceberg.hadoop.HadoopFileIO",
        }
        if isinstance(self.connection, SparkS3):
            prefix = self.connection._get_hadoop_config_prefix()  # noqa: SLF001
            hadoop_config = {
                "hadoop." + k: v
                for k, v in self.connection._get_expected_hadoop_config(prefix).items()  # noqa: SLF001
            }
            config.update(hadoop_config)

        return config

    @validator("path", pre=True)
    def _validate_path(cls, path, values):
        connection = values.get("connection")
        if isinstance(connection, SparkFileDFConnection):
            return connection.path_from_string(path)
        return path