Вступ
PySpark: Розподілене оброблення з Apache Spark
Це інтерфейс Python для Apache Spark, потужної платформи для розподілених обчислень, призначеної для ефективної обробки великих обсягів даних. Spark дозволяє виконувати складні операції, такі як перетворення, аналіз у реальному часі та машинне навчання, на кластерах із кількома вузлами.
Confluent Kafka: Повідомлення в реальному часі
Це розподілена платформа на основі Apache Kafka, яка використовується для потокової передачі даних у реальному часі між різними системами. Вона ідеально підходить для архітектур мікросервісів і обробки даних високої швидкості, таких як дані з сенсорів, додатків або фінансових систем.
MongoDB: Гнучка NoSQL база даних
Це NoSQL база даних, орієнтована на документи, ідеально підходить для зберігання напівструктурованих або неструктурованих даних. Вона використовує формат даних JSON (або BSON), що полегшує інтеграцію та забезпечує гнучкість у керуванні динамічними даними.
Розвиток
Крок 1: Підключення до Kafka та читання даних
Створено таблицю в Confluent із топіком, що називається datapath
.
Потім було здійснено підключення до кластеру Databricks через Confluent та Mongo.
Читання даних з Kafka.
Створюємо схему з цих полів і використовуємо from_json
.
Крок 2: Створення таблиці alumnos
Читання через Spark.
Крок 3: З'єднання таблиць tb_notas_raw
та tb_alumnos
Крок 4: Обчислення середнього балу та визначення, чи здобуто стипендію.
Крок 5: Підключення до MongoDB та збереження результату.
Перевіряємо, що результат збережено.
Перекладено з: Taller 2: Py Spark