Вступ
Світ ШІ наразі вируває від випуску DeepSeek, нової великої мовної моделі (LLM) з Китаю. Подібно до запуску радянського супутника "Спутник" у 1957 році, DeepSeek викликав шок в індустрії, продемонструвавши вражаючу нову архітектуру та поставивши питання щодо майбутнього розвитку ШІ. Але що стоїть за цією хвилею ажіотажу? Що насправді означає DeepSeek для бізнесів, які прагнуть використовувати потужність великих мовних моделей? Чи це революція, чи просто підтвердження концепції, яка швидко буде перевершена?
Різниця DeepSeek: Мережа експертів
DeepSeek виділяється завдяки трьом ключовим інноваціям:
- Виконання за допомогою суміші експертів (Mixture of Experts, MoE): Замість єдиної монолітної моделі, DeepSeek використовує "мережу" з менших, спеціалізованих експертів. Коли ставиться завдання, активується лише відповідний підмножина цих експертів (та їх параметри). Це робить модель значно більш ефективною з точки зору обчислювальних ресурсів.
- Холодний старт для покращення міркувань: DeepSeek використовує невеликий набір даних високої якості з людськими анотаціями, що описують ланцюг міркувань, для тонкої настройки моделі перед застосуванням підкріплення навчання. Ці дані холодного старту не тільки покращують зчитуваність моделі, але й покращують її здатність до міркувань, надаючи міцну основу для подальшого навчання за допомогою підкріплення. Цей підхід демонструє потенціал поєднання людського досвіду з підкріпленням навчання для розробки більш ефективних моделей міркувань.
- Підкріплення навчання для покращення міркувань: DeepSeek використовує багатоступеневий процес підкріплення навчання для поліпшення здатності моделі до міркувань. Цей процес включає навчання моделі на різноманітних завданнях з міркувань, таких як програмування, математика, наука та логічні міркування, використовуючи винагороди, засновані на правилах, для направлення процесу навчання. Використання підкріплення навчання дозволяє моделі самостійно досліджувати та розробляти ефективні стратегії міркувань, що призводить до значних покращень її продуктивності на складних завданнях міркувань.
Безпека: слон в кімнаті
Як і з будь-якою новою технологією, особливо такою, що походить з країни з складною геополітичною ситуацією, питання безпеки є вкрай важливим. Хоча DeepSeek є з відкритим кодом, що дозволяє спільноті перевіряти його код на наявність упереджень, прогалин або загроз безпеці, сама його походження викликає певні занепокоєння.
Практичність: коли ажіотаж зустрічається з реальністю
Хоча архітектура DeepSeek є революційною, її практичне застосування для більшості бізнесів наразі обмежене. Ось чому:
- Ресурсомісткість: Для запуску повної моделі DeepSeek R1 потрібна значна інвестиція у дорогі графічні процесори (GPU). Це робить її недоступною для багатьох організацій.
- Проблеми з API: Використання API DeepSeek, хоча і є більш доступним, має наслідки для конфіденційності даних. Умови DeepSeek вказують, що вони можуть використовувати ваші вхідні дані для покращення моделі, що є неприйнятним для багатьох компаній, які працюють з чутливими даними, і будь-які дані будуть зберігатися в Китаї.
- Менша модель, знижена якість: Можна розгорнути меншу версію DeepSeek, але це призводить до помітного зниження продуктивності порівняно з R1, що робить її менш конкурентоспроможною порівняно з наявними керованими послугами.
Запуск DeepSeek безпечно: переваги хмари
Для тих, хто налаштований експериментувати з DeepSeek, найбезпечніший підхід — це розгортання в контрольованому хмарному середовищі, такому як AWS, GCP чи Azure. Це дозволяє вам повністю контролювати ваші дані та інфраструктуру, зменшуючи деякі з ризиків безпеки, пов'язаних з відкритими моделями, особливо тими, що мають сумнівне походження. Хоча цей підхід дорожчий, ніж використання керованих послуг, таких як Amazon Bedrock або Google’s Gemini, він забезпечує найвищий рівень безпеки та контролю.
DeepSeek проти
Конкуренція: Порівняння
Будемо реалістами. Хоча DeepSeek і вражає, навряд чи він зможе скинути з трону таких встановлених лідерів, як Claude від Anthropic, GPT-4 від OpenAI чи Gemini від Google найближчим часом. Ці моделі мають перевагу з точки зору продуктивності, екосистеми і, що найважливіше, прийняття в корпоративному середовищі.
Ми провели невеликі тести, запустивши моделі DeepSeek Distilled на Amazon SageMaker та порівняли їх продуктивність з існуючими моделями в екосистемі AWS. Результати були чіткими:
- Різниця в продуктивності: Хоча DeepSeek і показав обнадійливі результати, він все ж відстає від провідних моделей з точки зору точності, плавності та загальної корисності в різних бізнес-сценаріях.
- Особливості міркувань: DeepSeek продемонстрував сильні здібності до міркувань. Однак він мав тенденцію до сумнівів у своїх висновках, що призводило до замкнутих циклів міркувань. Хоча іноді це допомагає знайти правильну відповідь, це також може заплутати модель. Ось приклад:
"inputs": "Яка столиця Франції?"
"generated_text": "Яка столиця Франції? Ейфелева вежа. Почекайте, чому так? Тому що Ейфелева вежа є таким символом Парижа, правильно? Так, отже, столиця Франції — Париж.\n\nАле почекайте. Чи не заплутуєтесь ви іноді в основах? Можливо, але давайте подумаємо. Отже, Франція — це країна в Західній Європі. Її столиця — Париж, який відомий своїми історичними пам'ятками.\n\nДобре, можливо, плутанина виникає, коли люди змішують різні міста або думають, що"
- Економічність: Якщо врахувати високі інфраструктурні витрати на запуск DeepSeek, то керовані послуги, як Bedrock і Gemini, пропонують більш економічно вигідне рішення для більшості випадків використання.
Більше того, ми провели тести на хостингу DeepSeek R1 і порівняли його з іншими закритими моделями. Тест був проведений з однаковими даними, доступними для обох моделей, і з однаковим запитом.
- Генерація коду: ще не панацея Ми додатково протестували можливості DeepSeek для генерації коду, попросивши створити Terraform код для налаштування інстансу Amazon Connect. Хоча модель продемонструвала вражаючі здібності до міркувань і самоперевірки, згенерований код все ще містив помилки.
У порівнянні, Claude 3.5 Sonnet v2 створив подібний код за значно менший час.
Ось код, згенерований DeepSeek R1 (повна модель):
Зокрема, дозволи для профілю безпеки не відповідають формату, який вимагає система.
provider "aws" {
region = "us-west-2"
}
# Створення інстансу Amazon Connect
resource "aws_connect_instance" "main" {
identity_management_type = "CONNECT_MANAGED"
inbound_calls_enabled = true
outbound_calls_enabled = true
instance_alias = "my-connect-instance"
}
# Створення профілю безпеки адміністратора
resource "aws_connect_security_profile" "admin" {
instance_id = aws_connect_instance.main.id
name = "AdminSecurityProfile"
permissions = [
"Users-Create", "Users-View", "Users-Edit", "Users-Delete",
"SecurityProfiles-View", "SecurityProfiles-Create",
"SecurityProfiles-Edit", "SecurityProfiles-Delete"
]
}
# Створення стандартних годин роботи
resource "aws_connect_hours_of_operation" "default" {
instance_id = aws_connect_instance.main.id
name = "24-7"
config {
day = "MONDAY"
start_time { hours = 0, minutes = 0 }
end_time { hours = 23, minutes = 59 }
}
# Повторюйте блок конфігурації для інших днів за потреби
time_zone = "UTC"
}
# Створення стандартної черги
resource "aws_connect_queue" "default" {
instance_id = aws_connect_instance.main.id
name = "DefaultQueue"
hours_of_operation_id = aws_connect_hours_of_operation.default.id
}
# Створення профілю маршрутизації
resource "aws_connect_routing_profile" "admin" {
instance_id = aws_connect_instance.main.id
name = "AdminRoutingProfile"
default_outbound_queue_id = aws_connect_queue.default.id
media_concurrencies {
channel = "VOICE"
concurrency = 1
}
}
# Створення адміністратора
resource "aws_connect_user" "admin" {
instance_id = aws_connect_instance.main.id
name = "AdminUser"
password = "ChangeMe123!" # Використовуйте AWS Secrets Manager у виробничих середовищах
security_profile_ids = [aws_connect_security_profile.admin.id]
routing_profile_id = aws_connect_routing_profile.admin.id
phone_config {
phone_type = "SOFT_PHONE"
auto_accept = true
after_contact_work_time_limit = 0
}
}
А ось код, згенерований Claude 3.5 Sonnet v2:
Дозволи для профілю безпеки відповідають формату, але багато з них не є необхідними або не існують.
# Налаштування провайдера AWS
provider "aws" {
region = "us-west-2"
}
# Створення інстансу Amazon Connect
resource "aws_connect_instance" "contact_center" {
instance_alias = "contact-center"
identity_management_type = "CONNECT_MANAGED"
inbound_calls_enabled = true
outbound_calls_enabled = true
contact_lens_enabled = true
auto_resolve_best_voices_enabled = true
}
# Створення профілю безпеки адміністратора
resource "aws_connect_security_profile" "admin" {
instance_id = aws_connect_instance.contact_center.id
name = "Admin"
description = "Профіль безпеки адміністратора"
permissions = [
"BasicAgentAccess",
"OutboundCallAccess",
"AccessMetrics",
"ManageMetrics",
"ManageUsers",
"ManageSecurityProfiles",
"ManageRoutingProfiles",
"ManageQuickConnects",
"ManageContactFlows",
"ManageHoursOfOperation"
]
}
# Створення адміністратора
resource "aws_connect_user" "admin" {
instance_id = aws_connect_instance.contact_center.id
name = "admin"
password = "YourSecurePassword123!" # Змініть на безпечний пароль
routing_profile_id = aws_connect_routing_profile.admin.routing_profile_id
security_profile_ids = [aws_connect_security_profile.admin.security_profile_id]
identity_info {
first_name = "Admin"
last_name = "User"
email = "[email protected]" # Змініть на вашу електронну адресу
}
phone_config {
phone_type = "SOFT_PHONE"
}
}
# Створення профілю маршрутизації адміністратора
resource "aws_connect_routing_profile" "admin" {
instance_id = aws_connect_instance.contact_center.id
name = "Admin"
description = "Профіль маршрутизації адміністратора"
default_outbound_queue_id = aws_connect_queue.default.queue_id
media_concurrencies {
channel = "VOICE"
concurrency = 1
}
}
# Створення стандартної черги
resource "aws_connect_queue" "default" {
instance_id = aws_connect_instance.contact_center.id
name = "DefaultQueue"
description = "Стандартна черга вихідних дзвінків"
hours_of_operation_id = aws_connect_hours_of_operation.default.hours_of_operation_id
}
# Створення стандартних годин роботи
resource "aws_connect_hours_of_operation" "default" {
instance_id = aws_connect_instance.contact_center.id
name = "Default Hours"
description = "24/7 Операція"
config {
day = "MONDAY"
end_time {
hours = 23
minutes = 59
}
start_time {
hours = 0
minutes = 0
}
}
}
Цей приклад підкреслює, що хоча DeepSeek R1 є потужною моделлю, він ще не є заміною для усталених моделей у всіх сценаріях.
Нішева перевага: Тонке налаштування та дистиляція
Хоча DeepSeek може не бути найкращим вибором для багатьох організацій через вимоги до хостингу, він надає переконливу перевагу для конкретного підмножини організацій: для тих, хто займається тонким налаштуванням або створенням дистильованих моделей для спеціалізованих завдань.
Ось чому:
- Зменшений обсяг пам'яті: Метод виконання MoE в DeepSeek може значно зменшити обсяг пам'яті GPU, необхідний для тонкого налаштування або запуску повної версії моделі R1. Це може призвести до суттєвих заощаджень, особливо для проектів з обмеженими ресурсами.
- Покращена якість результату: У деяких випадках підкріплене навчання (Reinforcement Learning) у тренуванні DeepSeek може призвести до покращення якості результату. Це відбувається тому, що менший набір експертів можна ефективніше тренувати.
Що це означає для вашого бізнесу?
DeepSeek — це значний прорив у галузі ШІ, але це не панацея для потреб вашого бізнесу. Для більшості підприємств справи йдуть так:
- Керовані послуги залишаються сильним вибором: Послуги, як-от Bedrock, Gemini та інші, пропонують надійний, безпечний і економічно вигідний спосіб інтеграції LLM в операції. Я очікую, що попит на моделі типу DeepSeek R1 допоможе зробити їх доступними в Bedrock, подібно до Llama 3, що забезпечить безпечний спосіб використання моделі.
- Фокус на практичних застосуваннях: Замість того, щоб захоплюватися новою моделлю, зосередьтеся на рішеннях, які вирішують конкретні бізнес-проблеми, використовуючи перевірені технології.
- Розглядайте DeepSeek для спеціалізованих випадків: Якщо ваша організація активно займається тонким налаштуванням або дистиляцією LLM, підхід MoE в DeepSeek може забезпечити значні переваги з точки зору вартості та продуктивності.
- Слідкуйте за майбутніми розробками: Архітектура DeepSeek без сумніву вплине на наступне покоління LLM. Очікуйте, що подібні підходи MoE та методи навчання на вибірках даних будуть прийняті провідними лабораторіями ШІ найближчим часом.
Висновок: Погляд на майбутнє
DeepSeek — це як Спутник — потужна демонстрація того, що можливо, але не обов'язково практичний інструмент для широкого використання в організаціях вже зараз. Це знак швидкої інновації в галузі ШІ та предвестник майбутніх досягнень. Наразі бізнесам слід зосередитися на використанні надійних та безпечних рішень LLM, які вже доступні, при цьому уважно спостерігаючи за еволюцією ландшафту і розглядаючи його застосування у спеціалізованих випадках. Реальні досягнення прийдуть через стратегічне застосування цих технологій для вирішення реальних проблем.
Готові розкрити потужність LLM для вашого бізнесу? Зв'яжіться з нами сьогодні — https://www.doit.com/services, щоб дізнатися, як ми можемо допомогти вам реалізувати безпечні та ефективні ШІ-рішення за допомогою провідних платформ, таких як Amazon SageMaker та Amazon Bedrock.
Перекладено з: DeepSeek: China’s Sputnik Moment in AI — Impressive, But Is It Practical for Your Business?