Kaggle — це платформа, ідеальна для початківців у галузі науки про дані та машинного навчання. Вона пропонує велику бібліотеку наборів даних, інструменти для створення моделей, колабораційну спільноту та конкурси для вирішення реальних задач.
Ось інструкція по отриманню наборів даних Kaggle за допомогою API Kaggle в Python:
Крок 1: Реєстрація на Kaggle
Зареєструйте безкоштовний обліковий запис на Kaggle
Kaggle Login or Sign up
Крок 2: Створення токена
Вам потрібно пройти аутентифікацію за допомогою API токена для використання публічного API Kaggle. Перейдіть у вкладку «Account» вашого профілю та виберіть «Create New Token». Це ініціює завантаження файлу kaggle.json, який містить ваші облікові дані API.
Крок 3: Встановлення бібліотеки Kaggle
Переконайтеся, що на вашому комп'ютері встановлені Python і pip. Потім встановіть бібліотеку Kaggle, запустивши команду:
pip install kaggle
Крок 4: Переміщення файлу kaggle.json в правильну папку
Для використання облікових даних API файл kaggle.json повинен бути в певній директорії. Перемістіть його в:
Linux/MacOS: ~/.kaggle/kaggle.json
Windows: C:\Users\\.kaggle\kaggle.json
Замість __ вкажіть ваше реальне ім’я користувача Windows. Наприклад, для user це буде C:\Users\user.kaggle\kaggle.json
Ви можете вручну створити папку .kaggle і потім перемістити файл kaggle.json у цю папку.
Крок 5: Аутентифікація за допомогою Kaggle API
У вашому Python-скрипті аутентифікуйтеся за допомогою API, використовуючи наступний код:
import kaggle
from kaggle.api.kaggle_api_extended import KaggleApi
# Ініціалізація API Kaggle
api = KaggleApi()
api.authenticate()
Крок 6: Завантаження набору даних
Наприклад, для завантаження набору даних "Sales Transaction Dataset"
https://www.kaggle.com/datasets/srinivasav22/sales-transactions-dataset
Сторінка набору даних Sales Transaction Kaggle
Щоб завантажити весь набір даних за допомогою api.datasetdownloadfiles()
handle = 'srinivasav22/sales-transactions-dataset'
api.dataset_download_files(handle, path='./', unzip=True)
Щоб завантажити конкретний файл, (наприклад, Test.xlsx) за допомогою api.datasetdownloadfile()
handle = 'srinivasav22/sales-transactions-dataset'
file = 'Test.xlsx'
api.dataset_download_file(handle, file_name=file)
Повний код:
import kaggle
from kaggle.api.kaggle_api_extended import KaggleApi
# Ініціалізація API Kaggle
api = KaggleApi()
api.authenticate()
handle = 'srinivasav22/sales-transactions-dataset'
file = 'Test.xlsx'
# щоб завантажити весь набір даних
api.dataset_download_files(handle, path='./', unzip=True)
# завантажити конкретний файл
api.dataset_download_file(handle, file_name=file)
Ви успішно налаштували Kaggle API і завантажили набір даних безпосередньо у ваше Python-середовище. Більше не потрібно завантажувати вручну.
Щасливого кодування, науковці з даних! 🚀
Перекладено з: Get Kaggle Datasets via API in Python