Багато з наших прогнозів на 2024 рік справдилися, що зробило цей рік визначним для ШІ. Ми стали свідками виникнення нових парадигм, таких як масштабування часу інференсу, поряд з подальшим удосконаленням існуючих тенденцій — зокрема, рухом до менших, але надзвичайно ефективних і потужних моделей. Спільнота відкритого коду також досягла нових висот, про що свідчить випуск піонерських моделей, таких як DeepSeek v3. Тепер, коли ми переходимо до 2025 року, ми очікуємо ще більш захоплюючий етап у розвитку ШІ, підживлений продовженням інновацій минулого року.
Масштабування правильних речей:
За останні три роки більша частина уваги була зосереджена на масштабуванні моделей через збільшення кількості параметрів. Хоча так звані «закони масштабування» показують чітку траєкторію для покращення можливостей моделей, вони залишаються більше емпіричним спостереженням, ніж суворим правилом. Більше того, масштабування великих моделей надто дорого коштує і може бути економічно та технологічно непідйомним. Як зазначив Ілля Суцкевер (OpenAI), «Масштабувати правильні речі важливіше ніж будь-коли».
З моменту випуску сімейства моделей OpenAI o, акцент змістився на масштабування часу інференсу, а не лише на розмірі моделей. Ми очікуємо, що ця тенденція продовжиться, відкриваючи десятки моделей з відкритим кодом та власних «мислячих» моделей, орієнтованих на ефективний інференс та практичну корисність.
Підйом малих моделей
2024 рік відзначався значними досягненнями в малих мовних моделях. Моделі з всього 8B параметрів почали досягати результатів, що порівняні або кращі за GPT-3.5 та інші великомасштабні системи. Покращення в методах квантизації та стратегіях тренування дозволили цим меншим моделям працювати на крайових пристроях, відкриваючи нові можливості.
Компанії, такі як Meta, Alibaba (Qwen) та Apple, значно інвестували в цю галузь, демонструючи, що навіть моделі, які раніше вважалися занадто малими, тепер можуть виконувати завдання, які традиційно виконували більш потужні системи. Тим часом, менші фундаментальні моделі, такі як NuExtract, набули популярності завдяки своїй ефективності та реальному застосуванню у завданнях витягування інформації.
Попри меншу кількість параметрів, спеціалізовані малі моделі часто демонструють конкурентоспроможну генералізацію в конкретних сферах, сприяючи швидкому розвитку таких напрямків, як нульовий вибір для розпізнавання іменованих сутностей (NER) та класифікація тексту. Нові системи, такі як GLiNER, йдуть в ногу з розвитком генеративного ШІ, впроваджуючи підтримку мультимодальності та довші вікна контексту.
Few-Shot Learning вимагає ще менше прикладів
Масштабне попереднє навчання значно просунуло можливості few-shot навчання, особливо в генеративних моделях, які використовують навчання в контексті. Малі моделі, такі як GLiClass, можуть досягати результатів, порівняних із повністю контрольованими системами — тими, що тренуються на тисячах прикладів, використовуючи лише десятки прикладів через додаткове навчання.
Одночасно очікується, що навчання без прикладів досягне рівня компетентності, порівнянного з нинішнім few-shot навчанням. Ми прогнозуємо, що ці покращення не обмежуватимуться лише генеративним ШІ, а поширюватимуться на широкий спектр моделей і завдань.
Розвиток у удосконаленому налаштуванні через підкріплення — ініційованому OpenAI — ймовірно, стане більш поширеним, що дозволить досягати результатів тренування з наглядами, використовуючи лише кілька прикладів.
Покращення логічного міркування великих мовних моделей (LLMs)
Наприкінці 2024 року спостерігався сплеск інтересу до покращення здатностей моделей до міркування, таких як o1 та o3 від OpenAI, а також їхніх аналогів з відкритим кодом, таких як QwQ-32B. Ми очікуємо, що 2025 рік принесе справжню гонку в розробці ще більш розвинутих можливостей міркування, які еволюціонуватимуть у трьох основних напрямках:
- Автоматичне генерування ланцюга міркувань, подібно до того, як працює QwQ.
- Пошук програм природною мовою, як це припускається для o3.
- Гібридні підходи, що поєднують генеративні моделі з символічним чи графовим міркуванням, особливо корисні у спеціалізованих доменах, таких як геометрія.
Архітектури моделей, орієнтовані на апаратне забезпечення
Використання характеристик апаратного забезпечення: Очікується, що буде зосереджено увагу на розробці архітектур моделей, що орієнтовані на специфічні характеристики апаратного забезпечення для досягнення оптимальної продуктивності.
Інвестиції від великих гравців: Очікується значні дослідження та інвестиції від великих апаратних компаній, таких як Nvidia, Intel, Apple, Google та Microsoft, що можуть призвести до створення мобільних LLM.
Перегляд архітектури трансформерів
Протягом 2024 року було багато спроб замінити трансформери на моделі простору станів (наприклад, Mamba або xLSTM). Ці нові архітектури пропонують переваги, такі як підтримка довших послідовностей та покращена ефективність. Однак трансформери залишаються надзвичайно конкурентоспроможними і підтримуються потужною інфраструктурою та екосистемою.
Гібридні моделі, такі як Jamba, демонструють, що поєднання сильних сторін різних архітектур є багатообіцяючим. Ми очікуємо, що в 2025 році дослідники продовжать удосконалювати та розширювати моделі трансформерів, можливо, вводячи інноваційні схеми позиційного кодування або перевизначаючи механізм уваги — концептуально пов'язаний з операціями оновлення в щільних Hopfield Networks.
Повернення енкодерів
Прогнози минулого року щодо відновленого інтересу до енкодерів почали здійснюватися з такими моделями, як ModernBERT. Ми очікуємо подальшого прогресу в архітектурах на основі енкодерів у 2025 році, потенційно включаючи релізи з відкритим кодом від великих гравців, таких як Meta. Подібно, гібридні моделі енкодер-декодер (наприклад, ModernT5) можуть набрати популярності, поєднуючи ефективність з потужною продуктивністю.
Прориви в обчислювальній біології
AlphaFold 3 став значним кроком уперед від першої версії AlphaFold, відкриваючи нові можливості, такі як прогнозування взаємодій лігандів і білків. Ми очікуємо, що розвиток у цій галузі рухатиметься в напрямку моделювання взаємодій на рівні системної біології, що дозволить такі використання, як реконструкція генетичних регуляторних мереж та моделювання шляхів.
Прогрес у генерації відео
Нещодавні розробки, такі як Sora та випуск Veo 2, змінили уявлення про те, що сучасний ШІ може досягти у генерації відео. Порівняно з минулим роком, траєкторія цієї галузі стала яснішою — особливо у створенні відео, що враховують фізику, які можуть відтворювати складні та швидкі рухи. Ми очікуємо зростаючий попит на генерацію довших відео, що буде задоволений подальшим технологічним прогресом. Інший ключовий напрямок — це спільна генерація відео та аудіо, що відкриває безліч нових можливостей.
Завдяки своїм великим ресурсам даних і експертизі в галузі фізично обґрунтованого глибинного навчання, Google, ймовірно, залишатиметься на передовій у цій галузі.
Зростання основних моделей для робототехніки
Передача знань між різними галузями ШІ та машинного навчання історично сприяла розвитку робототехніки. Сьогодні досягнення в дифузійних моделях, основних VLLM, а також розширення практичних застосувань навчання з підкріпленням прокладають шлях до надзвичайно продуктивного року попереду. Ми очікуємо, що ці розробки будуть швидко інтегровані в робототехніку, дозволяючи роботам виконувати ширший спектр завдань і більш складні дії з мінімальним налаштуванням.
Ще одна тенденція в ШІ на 2025 рік зафіксована в цьому зображенні
Висновок
З наближенням до 2025 року, імпульс, який був накопичений за минулий рік, веде ШІ до нової фази, що позначена більш ефективним масштабуванням під час інференсу, потужними малими моделями та дедалі складнішими можливостями міркування. Ці досягнення не відбуваються ізольовано; вони перетинаються з досягненнями в архітектурах, орієнтованих на апаратне забезпечення, обчислювальній біології та робототехніці, створюючи синергію, що обіцяє трансформаційний вплив на різні галузі. Особливо важливо, що відкриті спільноти значно наближаються до великих приватних моделей завдяки проривам у навчанні з кількома прикладами (few-shot) та без прикладів (zero-shot), що дозволяє досягати високої продуктивності з мінімумом даних. Одночасно дослідники розсувають межі генерації відео та мультимодальних даних, а архітектури на основі енкодерів та гібридні моделі продовжують здобувати популярність. Загалом, ці тенденції готують нас до того, що 2025 рік стане знаковим, в якому ШІ стане одночасно більш доступним і потужним, приносячи реальні переваги в таких галузях, як охорона здоров’я, біотехнології, пристрої на межі та повсякденні споживчі застосунки.
Перекладено з: AI Predictions for 2025: A Comprehensive Outlook. Spoiler: Open-Source Will Greatly Win Again.