Отримання наборів даних Kaggle через API в Python

Kaggle — це платформа, ідеальна для початківців у галузі науки про дані та машинного навчання. Вона пропонує велику бібліотеку наборів даних, інструменти для створення моделей, колабораційну спільноту та конкурси для вирішення реальних задач.

pic

Ось інструкція по отриманню наборів даних Kaggle за допомогою API Kaggle в Python:

Крок 1: Реєстрація на Kaggle

Зареєструйте безкоштовний обліковий запис на Kaggle
Kaggle Login or Sign up

pic

Крок 2: Створення токена

Вам потрібно пройти аутентифікацію за допомогою API токена для використання публічного API Kaggle. Перейдіть у вкладку «Account» вашого профілю та виберіть «Create New Token». Це ініціює завантаження файлу kaggle.json, який містить ваші облікові дані API.

pic

Крок 3: Встановлення бібліотеки Kaggle

Переконайтеся, що на вашому комп'ютері встановлені Python і pip. Потім встановіть бібліотеку Kaggle, запустивши команду:

pip install kaggle

Крок 4: Переміщення файлу kaggle.json в правильну папку

Для використання облікових даних API файл kaggle.json повинен бути в певній директорії. Перемістіть його в:

Linux/MacOS: ~/.kaggle/kaggle.json  
Windows: C:\Users\\.kaggle\kaggle.json

Замість __ вкажіть ваше реальне ім’я користувача Windows. Наприклад, для user це буде C:\Users\user.kaggle\kaggle.json

Ви можете вручну створити папку .kaggle і потім перемістити файл kaggle.json у цю папку.

pic

Крок 5: Аутентифікація за допомогою Kaggle API

У вашому Python-скрипті аутентифікуйтеся за допомогою API, використовуючи наступний код:

import kaggle  
from kaggle.api.kaggle_api_extended import KaggleApi  

# Ініціалізація API Kaggle  
api = KaggleApi()  
api.authenticate()

Крок 6: Завантаження набору даних

Наприклад, для завантаження набору даних "Sales Transaction Dataset"

https://www.kaggle.com/datasets/srinivasav22/sales-transactions-dataset

pic

Сторінка набору даних Sales Transaction Kaggle

Щоб завантажити весь набір даних за допомогою api.datasetdownloadfiles()

handle = 'srinivasav22/sales-transactions-dataset'  
api.dataset_download_files(handle, path='./', unzip=True)

Щоб завантажити конкретний файл, (наприклад, Test.xlsx) за допомогою api.datasetdownloadfile()

handle = 'srinivasav22/sales-transactions-dataset'  
file = 'Test.xlsx'  
api.dataset_download_file(handle, file_name=file)

Повний код:

import kaggle  
from kaggle.api.kaggle_api_extended import KaggleApi  

# Ініціалізація API Kaggle  
api = KaggleApi()  
api.authenticate()  

handle = 'srinivasav22/sales-transactions-dataset'  
file = 'Test.xlsx'  
# щоб завантажити весь набір даних  
api.dataset_download_files(handle, path='./', unzip=True)  
# завантажити конкретний файл  
api.dataset_download_file(handle, file_name=file)

Ви успішно налаштували Kaggle API і завантажили набір даних безпосередньо у ваше Python-середовище. Більше не потрібно завантажувати вручну.

Щасливого кодування, науковці з даних! 🚀

Перекладено з: Get Kaggle Datasets via API in Python

Leave a Reply

Your email address will not be published. Required fields are marked *