Розробка робіт AWS Glue локально за допомогою контейнера Glue-Spark та VS Code - javascript.org.ua

👉 Вимоги

Набір зображень Amazon Bin містить понад 500 000 зображень, кожне з яких має файл метаданих JSON розміром близько 1–3 КБ. Ми плануємо виконати ETL (Extract, Transform, Load) та EDA (Exploratory Data Analysis), щоб підтримати подальші завдання машинного навчання.

👉 Попередні вимоги

У попередньому демонстраційному відео ми завантажили підмножину метаданих (10K з 500K) в S3 бакет. Ми використовували AWS Athena з Trino SQL (та Amazon Ion Hive SerDe) для запитів і консолідації 17.9 МБ 10 441 JSON файлів у 3.9 МБ 21 SNAPPY-стискованих Parquet файлів, оптимізуючи для кращої продуктивності Spark.

Ознайомтеся з підручником формату тексту: https://docs.google.com/document/d/1bTx-5PGEoCiF9ABJrYSnrlMwsi61oc1XZCrAUVcuk

👉 Рішення

У цьому демонстраційному відео ми розробили роботи AWS Glue локально, використовуючи Docker-образ AWS Glue-Spark та VS Code на Windows OS для виконання аналізу даних метаданих. Чому локальна розробка Glue роботи? Це забезпечує економічний, гнучкий і швидкий процес розробки, що відтворює хмарне середовище, пропонуючи потужне налагодження, налаштування та інтеграцію інструментів.

Щоб відтворити результат:

Завантажте Docker-образ у Docker Desktop
Налаштуйте файл робочого простору VS Code
Запустіть контейнер і підключіть вікно VS Code
Запустіть Glue-Spark скрипти або зошити

Ознайомтеся з підручником формату тексту:
https://docs.google.com/document/d/1FtVdxZ283kILxVvl02-FmvLilk3uemvU_vIaJct2p5w

Репозиторій:
https://github.com/nov05/udacity-nd009t-capstone-starter/tree/master/docker_workspace
Файл конфігурації робочого простору VS Code:
https://github.com/nov05/udacity-nd009t-capstone-starter/blob/master/dockerworkspace/awsglue_spark.code-workspace
Команда Windows для запуску контейнера:
https://github.com/nov05/udacity-nd009t-capstone-starter/blob/master/dockerworkspace/windowscmd.md
Тест Glue PySpark скрипт (Підготовка тестових даних не потрібна):
https://github.com/nov05/udacity-nd009t-capstone-starter/blob/master/dockerworkspace/testglue_script.ipynb
Amazon Bin Image Dataset метадані PySpark EDA зошит (Потрібно виконати попередні вимоги):
https://github.com/nov05/udacity-nd009t-capstone-starter/blob/master/docker_workspace/aft-vbi-pds.ipynb

Перекладено з: Develop AWS Glue jobs locally with Glue-Spark container and VS Code

👉 Вимоги

👉 Попередні вимоги

👉 Рішення

Вам також може сподобатися

Leave a Reply