4 способи запустити власну інстанцію DeepSeek AI вже сьогодні - javascript.org.ua

Після цього тижня, сповненого емоцій в світі ШІ через випуск нових моделей міркувань DeepSeek, я хотів би показати вам, як розгорнути свою власну інстанцію моделі R1.

Випуск цієї моделі став справжнім викликом для поглядів на витрати на навчання та інферування в ШІ, змушуючи деяких замислитися, чи не є традиційні гравці, як-от OpenAI, неефективними або відсталими? Чи справді нам більше не потрібні стільки дорогих чіпів NVIDIA?

Однак додаток DeepSeek викликає деякі занепокоєння щодо конфіденційності, оскільки дані передаються через китайські сервери (і це всього за тиждень після скандалу з TikTok). Також трохи насторожує цензура в додатку, з повідомленнями, що він відмовляється відповідати на спірні питання, як-от про Південно-Китайське море, площу Тяньаньмень тощо.

Отже, якщо ви хочете розгорнути модель DeepSeek на інфраструктурі, яку контролюєте, я покажу, як це зробити!

На вашому локальному комп'ютері

Розмір має значення: Зверніть увагу, що існують кілька базових розмірів, дистиляцій і квантизацій моделі DeepSeek, що впливають на загальний розмір моделі. Ви повинні мати достатньо ОЗУ, щоб вмістити всю модель. Найменша — це модель 1.5B, яка займає 1.1 ГБ, а далі йде збільшення розміру. Тому, якщо ви просто експериментуєте з цією моделлю локально, не очікуйте, що зможете запустити найбільшу модель 671B розміром 404 ГБ.

1) Ollama

Якщо у вас є комп'ютер з GPU (NVIDIA CUDA, AMD ROCm або навіть Apple Silicon), одним із простих способів запуску LLM є Ollama.

Я вже згадував про Ollama раніше, але це зручний інструмент командного рядка, який дозволяє запускати LLM просто набравши ollama run. Крім того, він навіть може хостити локальний API моделі, якщо вам потрібно викликати її програмно, наприклад, з Python.

Після того, як ви встановите Ollama, запустіть ollama run deepseek-r1:1.5b. Це завантажить маніфест і налаштує модель для запуску. Для моделі 1.5B це зайняло лише кілька хвилин.

Тепер ви можете одразу почати задавати їй питання…

Зверніть увагу, що навіть самохостована модель DeepSeek буде піддана цензурі або, принаймні, сильно схильна до даних, на яких вона була навчена. Будьте обережні. ⚠

Перегляньте інші моделі DeepSeek-R1, сумісні з Ollama, тут: https://ollama.com/library/deepseek-r1

2) llama.cpp

Альтернативно, ви можете хостити LLM на різному обладнанні за допомогою інструменту під назвою llama.cpp, який є C++ інтерфейсом для запуску моделей у форматі .gguf. Це означає, що ви можете запускати моделі навіть на архітектурах на базі CPU.

Ви можете знайти безліч конверсій DeepSeek моделей у форматі .gguf на Hugging Face. Одна з найбільш популярних колекцій належить групі під назвою Unsloth. Наприклад, модель unsloth/DeepSeek-R1-UD-IQ1_S зменшена до ~135 ГБ.

Для початку вам потрібно завантажити остання версія бінарного файлу з GitHub llama.cpp, вибираючи той, який відповідає вашій апаратній конфігурації (Windows з CUDA, macOS тощо).

Потім вам потрібно завантажити файл .gguf потрібної моделі на ваш локальний комп'ютер.
Для демонстрації я використовую файл .gguf, який використовує Ollama і який має розмір лише ~1 ГБ. Потім ви можете виконати команду llama-cli з моделлю та бажаним запитом.

./llama.cpp/llama-cli \  
 --model deepseek-r1-1  
 --prompt "<｜User｜>Напишіть блог пост про LLM.<｜Assistant｜>"

Для деяких це може бути простіше виконати через Docker. Їхні інструкції містять різні Docker-образи, що підтримують різні архітектури.

Наступна команда Docker запустить модель 1.5B з підключеного тому за допомогою llama.cpp, використовуючи лише мій CPU:

docker run -v ./models:/models ghcr.io/ggerganov  
 -m /models/deepseek-r1-  
 -p "Випікання торта можна здійснити, зібравши наступні інгредієнти:" \  
 -n 512

Ой… ця маленька версія моделі не дуже добре справилася з вказівками щодо інгредієнтів для торта. 😅

На хмарі Azure

Зазвичай, Azure AI Studio містить популярні LLM, такі як GPT-4 від OpenAI, Llama від Meta, Phi від Microsoft тощо, але DeepSeek ще не доступний. (Я оновлю це повідомлення, коли модель стане доступною.) Але зачекайте! — Існують інші способи запустити цю модель в хмарі.

3) В Azure Machine Learning Studio

Azure ML дозволяє завантажувати практично будь-який тип файлу моделі (.pkl тощо) і потім розгорнути його з кастомною логікою Python для інферування. У розділі Models > +Register ви можете завантажити .gguf файл вашої моделі DeepSeek.

Після того, як файл завантажено, ви можете розгорнути модель як "Real-time endpoint" або "Batch endpoint", натиснувши кнопку ▶ Deploy.

Слідуйте крокам в майстрі розгортання, надаючи вашому кінцевому пункту ім'я, вибираючи модель для розгортання тощо.

Вам потрібно буде написати файл score.py, який вказує API, як обробляти запит. Ви можете використати бібліотеку llama.cpp Python для обробки інферування LLM і потім передати його назад у відповідь API.

import os  
import logging  
from llama_cpp import Llama  

def init():  
 global model  
 model_path = os.path.join(  
 os.getenv("AZUREML_MODEL_DIR"), "model/deepseek-r1-1.5b.gguf"  
 )  
 llm = Llama(model_path)  

def run(raw_data):  
 logging.info("DeepSeek-R1: request received")  
 output = llm(  
 raw_data, # Запит  
 max_tokens=32,  
 stop=["\n"],  
 echo=True  
 )  
 logging.info("Запит оброблено")  
 return result.tolist()

Щоб дізнатися більше про написання сценаріїв для інферування, перегляньте тут.

Після розгортання моделі ви отримаєте URL для API кінцевої точки та ключ/токен для автентифікації.

4) На віртуальній машині

Коли є сумніви, віртуальна машина (VM) — це найпростіший варіант, який ви можете вибрати. Хоча в масштабах ці стають важкими для управління, запуск віртуальної машини для вашої моделі ШІ не є поганим варіантом.
Просто переконайтесь, що ви обрали віртуальну машину (VM), яка має GPU (наприклад, серії NC або ND).

Коли віртуальна машина запуститься, вам потрібно буде зробити кілька речей:

Встановити драйвери NVIDIA CUDA (або вибрати образ віртуальної машини, на якому вони вже є) + усі необхідні залежності Python.
Встановити Ollama, llama.cpp або інший інструмент для хостингу LLM (як я показав на початку цього посту).
Відкрити порт(и) для вибраного інструмента, щоб ви могли отримати доступ до API кінцевої точки або веб-додатку інструмента. (11434 для Ollama, 8080 для llama.cpp тощо.)

Повний список Azure GPU-акселерованих віртуальних машин можна знайти тут.

Остаточні думки

Хоча є певний ажіотаж навколо цих моделей і компанії, яка їх тренувала, я б застеріг від того, щоб сприймати їх як надзвичайно корисні. За моїми тестами, здатність до розумових висновків, яка повинна конкурувати з найновішими моделями OpenAI, ледве помітна в менших моделях, які можна запустити локально. Отже, вам потрібно мати потужне обладнання, щоб наблизитись до продуктивності, яку ви отримаєте з ChatGPT Plus за $20 на місяць. Той факт, що зменшення витрат на навчання, якщо це правда, досить вражаючий.

Також явна упередженість і цензура в цих моделях лякає. Якщо ці моделі дійсно є відкритим вихідним кодом, сподіваюся, що люди зможуть якнайшвидше усунути ці обмеження. В іншому випадку це не варте такого ажіотажу (і вже точно не варте зниження вартості акцій на $1 трлн цього тижня).

Якщо ви або ваша організація хочете отримати допомогу в дослідженні AI моделей, звертайтесь: [email protected] ✉

Будьте цікаві…

Перекладено з: 4 Ways to Run Your Own DeepSeek AI Instance Today