Тренінг 2: PySpark

Вступ

PySpark: Розподілене оброблення з Apache Spark

Це інтерфейс Python для Apache Spark, потужної платформи для розподілених обчислень, призначеної для ефективної обробки великих обсягів даних. Spark дозволяє виконувати складні операції, такі як перетворення, аналіз у реальному часі та машинне навчання, на кластерах із кількома вузлами.

Confluent Kafka: Повідомлення в реальному часі

Це розподілена платформа на основі Apache Kafka, яка використовується для потокової передачі даних у реальному часі між різними системами. Вона ідеально підходить для архітектур мікросервісів і обробки даних високої швидкості, таких як дані з сенсорів, додатків або фінансових систем.

MongoDB: Гнучка NoSQL база даних

Це NoSQL база даних, орієнтована на документи, ідеально підходить для зберігання напівструктурованих або неструктурованих даних. Вона використовує формат даних JSON (або BSON), що полегшує інтеграцію та забезпечує гнучкість у керуванні динамічними даними.

Розвиток

Крок 1: Підключення до Kafka та читання даних

Створено таблицю в Confluent із топіком, що називається datapath.

pic

Потім було здійснено підключення до кластеру Databricks через Confluent та Mongo.

pic

Читання даних з Kafka.

pic

Створюємо схему з цих полів і використовуємо from_json.

pic

pic

Крок 2: Створення таблиці alumnos

pic

Читання через Spark.

pic

Крок 3: З'єднання таблиць tb_notas_raw та tb_alumnos

pic

Крок 4: Обчислення середнього балу та визначення, чи здобуто стипендію.

pic

Крок 5: Підключення до MongoDB та збереження результату.

pic

Перевіряємо, що результат збережено.

pic

Перекладено з: Taller 2: Py Spark

Leave a Reply

Your email address will not be published. Required fields are marked *