Анотація
Здатність генерувати динамічний відеоконтент безпосередньо з текстових описів є величезним кроком вперед у розвитку Штучного інтелекту (ШІ). У цій статті представлено базовану на глибинному навчанні структуру для безшовного синтезу тексту у відео, з акцентом на досягнення реалістичної синхронізації рухів губ. Ми детально описуємо інтеграцію Генеративних змагальних мереж (GANs) для генерації відео, 3D-конволюційних мереж (3D CNNs) для захоплення тимчасових залежностей і Моделей тексту в мову (TTS) для генерації природного аудіо. Крім того, ми досліджуємо обчислювальні вимоги цього процесу, зокрема використання GPU та споживання енергії. Високі обчислювальні витрати, необхідні для створення відео високої якості з синхронізованим аудіо і рухами губ, є однією з основних проблем, і ми демонструємо, що GPU критично важливі для обробки в реальному часі. Наприкінці ми обговорюємо зростання SaaS-платформ для рішень з тексту у відео, розглядаючи зростаючий попит на масштабовані, хмарні інструменти ШІ для створення відеоконтенту.
1. Вступ
Здатність автоматично створювати відеоконтент з тексту є революційним досягненням у Штучному інтелекті (ШІ). Ця технологія має величезний потенціал у таких сферах, як медіа, освіта та реклама. Хоча ШІ для тексту в зображення (Text-to-Image AI) вже показав вражаючі результати у створенні статичних зображень, створення динамічних відео-секвенцій з тексту є набагато складнішою задачею, що вимагає не лише генерації зображень, а й забезпечення тимчасової узгодженості між кадрами та синхронізації аудіо і відео.
Один із найбільш складних аспектів ШІ для тексту у відео (Text-to-Video AI) — це досягнення синхронізації рухів губ (lip-syncing), що забезпечує відповідність рухів губ на відео з вимовленим аудіо. Це вимагає не лише високоякісної генерації відео, але й застосування технік синхронізації аудіо. У цій статті ми пропонуємо всебічну структуру для безшовного синтезу тексту у відео, з акцентом на створення високоякісного відеоконтенту безпосередньо з тексту та досягнення точного lip-syncing. Ми також представляємо глибокий аналіз обчислювальних ресурсів, що необхідні для цього процесу, зокрема використання GPU та споживання енергії.
2. Фон і пов'язані роботи
2.1. Генерація тексту в зображення
Основою для ШІ тексту у відео є досягнення у генерації тексту в зображення. Моделі, такі як DALL·E та AttnGAN, показали, як Генеративні змагальні мережі (GANs) можуть генерувати реалістичні зображення з текстових описів. Ці моделі використовують механізми уваги (attention mechanisms) та трансформери (transformers), що дозволяє їм захоплювати складні візуальні деталі з текстового вводу.
Однак ШІ для тексту у відео має додаткову складність, оскільки відео складаються з послідовності кадрів. Ці кадри потрібно генерувати таким чином, щоб забезпечити тимчасову узгодженість, тобто зміст одного кадру повинен логічно слідувати за попереднім. Для вирішення цієї проблеми було досліджено використання 3D-конволюційних мереж (3D CNNs) та Тимчасових Генеративних Мереж (TGANs), оскільки вони здатні вивчати як просторові, так і тимчасові залежності між кадрами відео.
2.2. Моделювання тимчасових відео
Для задачі генерації відео з тексту тимчасове моделювання стає критичним компонентом. 3D CNNs та TGANs часто використовуються для моделювання взаємозв'язку між кадрами в часі. 3D CNNs застосовують конволюції до просторових та тимчасових вимірів, що дозволяє їм захоплювати рухи між кадрами і тимчасову узгодженість відео-секвенцій.
2.3. Lip-Syncing та генерація аудіо
Одним із найбільш складних викликів у ШІ для тексту у відео є lip-syncing, який полягає в тому, щоб рухи губ на відео співвідносились з фонемами згенерованого мовлення.
Моделі Text-to-Speech (TTS), такі як Tacotron2 та WaveNet, використовуються для перетворення тексту в мовлення, генеруючи mel-спектрограми, які потім перетворюються на аудіо. Згенероване мовлення повинно бути синхронізоване з відео, щоб рухи губ співвідносилися з фонетичним вмістом мовлення.
3. Методологія
Запропонована структура ШІ тексту у відео (Text-to-Video AI) складається з модульного конвеєра, що інтегрує кілька передових моделей глибинного навчання для створення високоякісного відео з тексту. Конвеєр включає наступні етапи:
- Розуміння тексту: Токенізація та вбудовування вхідного тексту в векторний простір.
- Генерація тексту в зображення: Використання GANs для генерації зображень з тексту.
- Моделювання тимчасових відео: Використання TGANs або 3D CNNs для генерації послідовності кадрів, які є тимчасово узгодженими.
- Text-to-Speech (TTS): Перетворення тексту в мовлення за допомогою моделей TTS.
- Lip-Syncing: Синхронізація рухів губ з згенерованим аудіо.
- Фузія відео: Об'єднання згенерованих кадрів, синхронізованого аудіо та інформації про lip-syncing у фінальне відео.
3.1. Представлення тексту та токенізація
Першим етапом перетворення тексту у відео є розуміння тексту. Це досягається через токенізацію тексту та вбудовування токенів у високорозмірні вектори. Попередньо навчлені моделі, такі як BERT або GPT-3, використовуються для генерації цих векторів, що захоплюють семантичне значення вхідного тексту.
3.2. Генерація тексту в зображення з використанням GANs
Після вбудовування тексту використовуються GANs для генерації зображень із вбудованого тексту. Генератор створює зображення на основі вбудованого тексту, а дискримінатор оцінює, наскільки реалістичним є це зображення.
3.3. Моделювання тимчасових відео з TGANs і 3D CNNs
Для генерації відео використовуються TGANs або 3D CNNs для моделювання тимчасових залежностей між кадрами. Ці моделі забезпечують тимчасову узгодженість і плавність кадрів, що генеруються мережею.
3.4. Lip-Syncing з аудіо
Lip-syncing досягається шляхом вирівнювання рухів губ на згенерованому відео з фонемами згенерованого мовлення. Модель lip-syncing отримує mel-спектрограму згенерованого аудіо і відеокадри, після чого виводить синхронізовані відеокадри.
3.5. Використання GPU та обчислювальні вимоги
Зважаючи на обчислювальну складність ШІ тексту у відео (Text-to-Video AI), особливо для генерації високоякісних відео із синхронізованим аудіо, використання GPU є необхідним. GPU забезпечують паралельну обробку, що необхідна для виконання інтенсивних обчислень, що потребують моделі, як-от GANs, TGANs та lip-syncing.
Розрахунок споживання енергії:
Для генерації однієї секунди відео (30 кадрів) на GPU NVIDIA A100 споживання енергії виглядає наступним чином:
- Споживання енергії GPU: 350 Вт при максимальному навантаженні.
- Час обробки на кадр: Кожен кадр займає приблизно 2 секунди на обробку.
4. Чому багато постачальників SaaS входять у простір Text-to-Video
Зростаючий попит на масштабовані інструменти ШІ для створення контенту призвів до сплеску кількості постачальників SaaS, які входять на ринок Text-to-Video. Є кілька факторів, що сприяють цьому тренду:
- Зростаючий попит на автоматизований контент: Бізнеси з усіх галузей потребують контенту швидко та ефективно. ШІ тексту у відео (Text-to-Video AI) пропонує економічно ефективне рішення для задоволення цього попиту.
- Технологічні досягнення: Поширення хмарних рішень ШІ зробило більш доступним для постачальників SaaS пропонувати можливості генерації відео в масштабах.
3.
Економічна ефективність: Використовуючи хмарну інфраструктуру, бізнеси можуть отримати доступ до потужних ШІ інструментів для відео без необхідності інвестувати в дороге апаратне забезпечення. - Генерація відео в реальному часі: Зростає потреба в динамічному відео в реальному часі, особливо в соціальних мережах та рекламі.
- Інтеграція з популярними платформами: Постачальники SaaS (SaaS providers) інтегрують свої рішення з існуючими платформами, такими як електронна комерція (e-commerce), соціальні мережі (social media) та системи управління навчанням (LMS).
5. Висновок
Ця стаття надає детальну структуру для ШІ тексту у відео (Text-to-Video AI) та синхронізації lip-sync, висвітлюючи ключові моделі глибинного навчання, які використовуються для генерації високоякісних відео з тексту. Також ми демонструємо обчислювальні проблеми, зокрема в аспектах використання GPU та споживання енергії, які є критичними для генерації відео в реальному часі.
Зростаючий попит на автоматизований відеоконтент та розвиток платформ SaaS (SaaS platforms) прокладають шлях до нової ери у створенні контенту. Оскільки ця сфера продовжує розвиватися, необхідні подальші дослідження для оптимізації цих систем для реального часу та енергетичної ефективності, щоб забезпечити, що ШІ тексту у відео (Text-to-Video AI) стане масштабованим і сталим рішенням для бізнесів у різних галузях.
Список літератури
- Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., & Bengio, Y. (2014). Generative Adversarial Nets. У Proceedings of the 27th International Conference on Neural Information Processing Systems (NIPS 2014), 2672–2680.
Посилання на статтю - Zhu, J.-Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. У Proceedings of the IEEE International Conference on Computer Vision (ICCV 2017), 2223–2232.
Посилання на статтю - Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. A., Kaiser, Ł., & Polosukhin, I. (2017). Attention is All You Need. У Proceedings of NeurIPS 2017, 30, 5998–6008.
Посилання на статтю - Kingma, D. P., & Welling, M. (2013). Auto-Encoding Variational Bayes. У Proceedings of the 2nd International Conference on Learning Representations (ICLR 2014).
Посилання на статтю - Chen, Y., Zhang, L., He, X., & Liao, X. (2020). Wav2Lip: Accurately Synchronizing Lip Movements with Audio for Realistic Video Generation. У Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2020), 11984–11993.
Посилання на статтю - Suwajanakorn, S., Seitz, S. M., & Matusik, W. (2017). Synthesizing Obama: Learning Lip Sync from Audio. У ACM Transactions on Graphics (TOG), 36(4), 1–13.
Посилання на статтю - Chen, X., & Wang, Z. (2021). Text-to-Video Generation with Temporal Consistency. У Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2021).
Посилання на статтю
Перекладено з: From Words to Worlds: Deep Learning Algorithms for Seamless Text-to-Video Synthesis and Lip-Sync Synchronization