Розробка робіт AWS Glue локально за допомогою контейнера Glue-Spark та VS Code

👉 Вимоги

Набір зображень Amazon Bin містить понад 500 000 зображень, кожне з яких має файл метаданих JSON розміром близько 1–3 КБ. Ми плануємо виконати ETL (Extract, Transform, Load) та EDA (Exploratory Data Analysis), щоб підтримати подальші завдання машинного навчання.

👉 Попередні вимоги

У попередньому демонстраційному відео ми завантажили підмножину метаданих (10K з 500K) в S3 бакет. Ми використовували AWS Athena з Trino SQL (та Amazon Ion Hive SerDe) для запитів і консолідації 17.9 МБ 10 441 JSON файлів у 3.9 МБ 21 SNAPPY-стискованих Parquet файлів, оптимізуючи для кращої продуктивності Spark.

👉 Рішення

У цьому демонстраційному відео ми розробили роботи AWS Glue локально, використовуючи Docker-образ AWS Glue-Spark та VS Code на Windows OS для виконання аналізу даних метаданих. Чому локальна розробка Glue роботи? Це забезпечує економічний, гнучкий і швидкий процес розробки, що відтворює хмарне середовище, пропонуючи потужне налагодження, налаштування та інтеграцію інструментів.

Щоб відтворити результат:

  • Завантажте Docker-образ у Docker Desktop
  • Налаштуйте файл робочого простору VS Code
  • Запустіть контейнер і підключіть вікно VS Code
  • Запустіть Glue-Spark скрипти або зошити

Ознайомтеся з підручником формату тексту:
https://docs.google.com/document/d/1FtVdxZ283kILxVvl02-FmvLilk3uemvU_vIaJct2p5w

Перекладено з: Develop AWS Glue jobs locally with Glue-Spark container and VS Code

Leave a Reply

Your email address will not be published. Required fields are marked *