Чтение из MongoDB с использованием MongoDB.pipeline
MongoDB.sql позволяет передавать пользовательский пайплайн, но не поддерживает инкрементальные стратегии.
Предупреждение
Пожалуйста, учитывайте типы данных MongoDB
Рекомендации
Обратите внимание на значение pipeline
Вместо фильтрации данных на стороне Spark с помощью df.filter(df.column == 'value') передавайте правильное значение mongodb.pipeline(..., pipeline={"$match": {"column": {"$eq": "value"}}}).
Это одновременно уменьшает объем данных, передаваемых из MongoDB в Spark, и может также улучшить производительность запроса.
Особенно если есть индексы для столбцов, используемых в значении pipeline.