Чтение из Hive с помощью `Hive.sql`

Hive.sql позволяет передавать пользовательский SQL-запрос, но не поддерживает инкрементальные стратегии.

Поддержка синтаксиса

Поддерживаются только запросы со следующим синтаксисом:

✅︎ SELECT ... FROM ...
✅︎ WITH alias AS (...) SELECT ...
❌ SET ...; SELECT ...; - несколько операторов не поддерживаются

Warning

Фактически, запрос должен быть написан с использованием синтаксиса SparkSQL, а не HiveQL.

Примеры

```python
from onetl.connection import Hive

hive = Hive(...)
df = hive.sql(
    """
    SELECT
        id,
        key,
        CAST(value AS text) value,
        updated_at
    FROM
        some.mytable
    WHERE
        key = 'something'
    """
)   
```

Подробнее

Lazily execute SELECT statement and return DataFrame. |support_hooks|

Same as spark.sql(query).

.. versionadded:: 0.2.0

Parameters

query : str

SQL query to be executed.

Returns

df : pyspark.sql.dataframe.DataFrame

Spark dataframe

Source code in onetl/connection/db_connection/hive/connection.py

@slot
def sql(
    self,
    query: str,
) -> DataFrame:
    """
    Lazily execute SELECT statement and return DataFrame. |support_hooks|

    Same as ``spark.sql(query)``.

    .. versionadded:: 0.2.0

    Parameters
    ----------
    query : str

        SQL query to be executed.

    Returns
    -------
    df : pyspark.sql.dataframe.DataFrame

        Spark dataframe
    """

    query = clear_statement(query)

    log.info("|%s| Executing SQL query:", self.__class__.__name__)
    log_lines(log, query)

    with SparkMetricsRecorder(self.spark) as recorder:
        try:
            with override_job_description(self.spark, f"{self}.sql()"):
                df = self._execute_sql(query)
        except Exception:
            log.error("|%s| Query failed", self.__class__.__name__)

            metrics = recorder.metrics()
            if log.isEnabledFor(logging.DEBUG) and not metrics.is_empty:
                # as SparkListener results are not guaranteed to be received in time,
                # some metrics may be missing. To avoid confusion, log only in debug, and with a notice
                log.info("|%s| Recorded metrics (some values may be missing!):", self.__class__.__name__)
                log_lines(log, str(metrics), level=logging.DEBUG)
            raise

        log.info("|Spark| DataFrame successfully created from SQL statement")

        metrics = recorder.metrics()
        if log.isEnabledFor(logging.DEBUG) and not metrics.is_empty:
            # as SparkListener results are not guaranteed to be received in time,
            # some metrics may be missing. To avoid confusion, log only in debug, and with a notice
            log.info("|%s| Recorded metrics (some values may be missing!):", self.__class__.__name__)
            log_lines(log, str(metrics), level=logging.DEBUG)

    return df

Чтение из Hive с помощью `Hive.sql`

Поддержка синтаксиса

Примеры

Рекомендации

Используйте столбцовые форматы записи

Выбирайте только необходимые столбцы

Используйте столбцы разделов в условии `where`

Подробнее

Parameters

Returns

Чтение из Hive с помощью Hive.sql

Поддержка синтаксиса

Примеры

Рекомендации

Используйте столбцовые форматы записи

Выбирайте только необходимые столбцы

Используйте столбцы разделов в условии where

Подробнее

Parameters

Returns

Чтение из Hive с помощью `Hive.sql`

Используйте столбцы разделов в условии `where`