Skip to content

Чтение из MongoDB с использованием MongoDB.pipeline

MongoDB.sql позволяет передавать пользовательский пайплайн, но не поддерживает инкрементальные стратегии.

Предупреждение

Пожалуйста, учитывайте типы данных MongoDB

Рекомендации

Обратите внимание на значение pipeline

Вместо фильтрации данных на стороне Spark с помощью df.filter(df.column == 'value') передавайте правильное значение mongodb.pipeline(..., pipeline={"$match": {"column": {"$eq": "value"}}}). Это одновременно уменьшает объем данных, передаваемых из MongoDB в Spark, и может также улучшить производительность запроса. Особенно если есть индексы для столбцов, используемых в значении pipeline.