👉 Вимоги
Набір зображень Amazon Bin містить понад 500 000 зображень, кожне з яких має файл метаданих JSON розміром близько 1–3 КБ. Ми плануємо виконати ETL (Extract, Transform, Load) та EDA (Exploratory Data Analysis), щоб підтримати подальші завдання машинного навчання.
👉 Попередні вимоги
У попередньому демонстраційному відео ми завантажили підмножину метаданих (10K з 500K) в S3 бакет. Ми використовували AWS Athena з Trino SQL (та Amazon Ion Hive SerDe) для запитів і консолідації 17.9 МБ 10 441 JSON файлів у 3.9 МБ 21 SNAPPY-стискованих Parquet файлів, оптимізуючи для кращої продуктивності Spark.
- Ознайомтеся з підручником формату тексту: https://docs.google.com/document/d/1bTx-5PGEoCiF9ABJrYSnrlMwsi61oc1XZCrAUVcuk
👉 Рішення
У цьому демонстраційному відео ми розробили роботи AWS Glue локально, використовуючи Docker-образ AWS Glue-Spark та VS Code на Windows OS для виконання аналізу даних метаданих. Чому локальна розробка Glue роботи? Це забезпечує економічний, гнучкий і швидкий процес розробки, що відтворює хмарне середовище, пропонуючи потужне налагодження, налаштування та інтеграцію інструментів.
Щоб відтворити результат:
- Завантажте Docker-образ у Docker Desktop
- Налаштуйте файл робочого простору VS Code
- Запустіть контейнер і підключіть вікно VS Code
- Запустіть Glue-Spark скрипти або зошити
Ознайомтеся з підручником формату тексту:
https://docs.google.com/document/d/1FtVdxZ283kILxVvl02-FmvLilk3uemvU_vIaJct2p5w
- Репозиторій:
https://github.com/nov05/udacity-nd009t-capstone-starter/tree/master/docker_workspace - Файл конфігурації робочого простору VS Code:
https://github.com/nov05/udacity-nd009t-capstone-starter/blob/master/dockerworkspace/awsglue_spark.code-workspace - Команда Windows для запуску контейнера:
https://github.com/nov05/udacity-nd009t-capstone-starter/blob/master/dockerworkspace/windowscmd.md - Тест Glue PySpark скрипт (Підготовка тестових даних не потрібна):
https://github.com/nov05/udacity-nd009t-capstone-starter/blob/master/dockerworkspace/testglue_script.ipynb - Amazon Bin Image Dataset метадані PySpark EDA зошит (Потрібно виконати попередні вимоги):
https://github.com/nov05/udacity-nd009t-capstone-starter/blob/master/docker_workspace/aft-vbi-pds.ipynb
Перекладено з: Develop AWS Glue jobs locally with Glue-Spark container and VS Code