Від слів до світів: алгоритми глибинного навчання для безшовної синтезу тексту у відео та синхронізації рухів губ

pic

Анотація

Здатність генерувати динамічний відеоконтент безпосередньо з текстових описів є величезним кроком вперед у розвитку Штучного інтелекту (ШІ). У цій статті представлено базовану на глибинному навчанні структуру для безшовного синтезу тексту у відео, з акцентом на досягнення реалістичної синхронізації рухів губ. Ми детально описуємо інтеграцію Генеративних змагальних мереж (GANs) для генерації відео, 3D-конволюційних мереж (3D CNNs) для захоплення тимчасових залежностей і Моделей тексту в мову (TTS) для генерації природного аудіо. Крім того, ми досліджуємо обчислювальні вимоги цього процесу, зокрема використання GPU та споживання енергії. Високі обчислювальні витрати, необхідні для створення відео високої якості з синхронізованим аудіо і рухами губ, є однією з основних проблем, і ми демонструємо, що GPU критично важливі для обробки в реальному часі. Наприкінці ми обговорюємо зростання SaaS-платформ для рішень з тексту у відео, розглядаючи зростаючий попит на масштабовані, хмарні інструменти ШІ для створення відеоконтенту.

1. Вступ

Здатність автоматично створювати відеоконтент з тексту є революційним досягненням у Штучному інтелекті (ШІ). Ця технологія має величезний потенціал у таких сферах, як медіа, освіта та реклама. Хоча ШІ для тексту в зображення (Text-to-Image AI) вже показав вражаючі результати у створенні статичних зображень, створення динамічних відео-секвенцій з тексту є набагато складнішою задачею, що вимагає не лише генерації зображень, а й забезпечення тимчасової узгодженості між кадрами та синхронізації аудіо і відео.

Один із найбільш складних аспектів ШІ для тексту у відео (Text-to-Video AI) — це досягнення синхронізації рухів губ (lip-syncing), що забезпечує відповідність рухів губ на відео з вимовленим аудіо. Це вимагає не лише високоякісної генерації відео, але й застосування технік синхронізації аудіо. У цій статті ми пропонуємо всебічну структуру для безшовного синтезу тексту у відео, з акцентом на створення високоякісного відеоконтенту безпосередньо з тексту та досягнення точного lip-syncing. Ми також представляємо глибокий аналіз обчислювальних ресурсів, що необхідні для цього процесу, зокрема використання GPU та споживання енергії.

2. Фон і пов'язані роботи

2.1. Генерація тексту в зображення

Основою для ШІ тексту у відео є досягнення у генерації тексту в зображення. Моделі, такі як DALL·E та AttnGAN, показали, як Генеративні змагальні мережі (GANs) можуть генерувати реалістичні зображення з текстових описів. Ці моделі використовують механізми уваги (attention mechanisms) та трансформери (transformers), що дозволяє їм захоплювати складні візуальні деталі з текстового вводу.

Однак ШІ для тексту у відео має додаткову складність, оскільки відео складаються з послідовності кадрів. Ці кадри потрібно генерувати таким чином, щоб забезпечити тимчасову узгодженість, тобто зміст одного кадру повинен логічно слідувати за попереднім. Для вирішення цієї проблеми було досліджено використання 3D-конволюційних мереж (3D CNNs) та Тимчасових Генеративних Мереж (TGANs), оскільки вони здатні вивчати як просторові, так і тимчасові залежності між кадрами відео.

2.2. Моделювання тимчасових відео

Для задачі генерації відео з тексту тимчасове моделювання стає критичним компонентом. 3D CNNs та TGANs часто використовуються для моделювання взаємозв'язку між кадрами в часі. 3D CNNs застосовують конволюції до просторових та тимчасових вимірів, що дозволяє їм захоплювати рухи між кадрами і тимчасову узгодженість відео-секвенцій.

2.3. Lip-Syncing та генерація аудіо

Одним із найбільш складних викликів у ШІ для тексту у відео є lip-syncing, який полягає в тому, щоб рухи губ на відео співвідносились з фонемами згенерованого мовлення.
Моделі Text-to-Speech (TTS), такі як Tacotron2 та WaveNet, використовуються для перетворення тексту в мовлення, генеруючи mel-спектрограми, які потім перетворюються на аудіо. Згенероване мовлення повинно бути синхронізоване з відео, щоб рухи губ співвідносилися з фонетичним вмістом мовлення.

3. Методологія

Запропонована структура ШІ тексту у відео (Text-to-Video AI) складається з модульного конвеєра, що інтегрує кілька передових моделей глибинного навчання для створення високоякісного відео з тексту. Конвеєр включає наступні етапи:

  1. Розуміння тексту: Токенізація та вбудовування вхідного тексту в векторний простір.
  2. Генерація тексту в зображення: Використання GANs для генерації зображень з тексту.
  3. Моделювання тимчасових відео: Використання TGANs або 3D CNNs для генерації послідовності кадрів, які є тимчасово узгодженими.
  4. Text-to-Speech (TTS): Перетворення тексту в мовлення за допомогою моделей TTS.
  5. Lip-Syncing: Синхронізація рухів губ з згенерованим аудіо.
  6. Фузія відео: Об'єднання згенерованих кадрів, синхронізованого аудіо та інформації про lip-syncing у фінальне відео.

3.1. Представлення тексту та токенізація

Першим етапом перетворення тексту у відео є розуміння тексту. Це досягається через токенізацію тексту та вбудовування токенів у високорозмірні вектори. Попередньо навчлені моделі, такі як BERT або GPT-3, використовуються для генерації цих векторів, що захоплюють семантичне значення вхідного тексту.

pic

3.2. Генерація тексту в зображення з використанням GANs

Після вбудовування тексту використовуються GANs для генерації зображень із вбудованого тексту. Генератор створює зображення на основі вбудованого тексту, а дискримінатор оцінює, наскільки реалістичним є це зображення.

pic

3.3. Моделювання тимчасових відео з TGANs і 3D CNNs

Для генерації відео використовуються TGANs або 3D CNNs для моделювання тимчасових залежностей між кадрами. Ці моделі забезпечують тимчасову узгодженість і плавність кадрів, що генеруються мережею.

pic

3.4. Lip-Syncing з аудіо

Lip-syncing досягається шляхом вирівнювання рухів губ на згенерованому відео з фонемами згенерованого мовлення. Модель lip-syncing отримує mel-спектрограму згенерованого аудіо і відеокадри, після чого виводить синхронізовані відеокадри.

pic

3.5. Використання GPU та обчислювальні вимоги

Зважаючи на обчислювальну складність ШІ тексту у відео (Text-to-Video AI), особливо для генерації високоякісних відео із синхронізованим аудіо, використання GPU є необхідним. GPU забезпечують паралельну обробку, що необхідна для виконання інтенсивних обчислень, що потребують моделі, як-от GANs, TGANs та lip-syncing.

Розрахунок споживання енергії:

Для генерації однієї секунди відео (30 кадрів) на GPU NVIDIA A100 споживання енергії виглядає наступним чином:

  • Споживання енергії GPU: 350 Вт при максимальному навантаженні.
  • Час обробки на кадр: Кожен кадр займає приблизно 2 секунди на обробку.

pic

4. Чому багато постачальників SaaS входять у простір Text-to-Video

Зростаючий попит на масштабовані інструменти ШІ для створення контенту призвів до сплеску кількості постачальників SaaS, які входять на ринок Text-to-Video. Є кілька факторів, що сприяють цьому тренду:

  1. Зростаючий попит на автоматизований контент: Бізнеси з усіх галузей потребують контенту швидко та ефективно. ШІ тексту у відео (Text-to-Video AI) пропонує економічно ефективне рішення для задоволення цього попиту.
  2. Технологічні досягнення: Поширення хмарних рішень ШІ зробило більш доступним для постачальників SaaS пропонувати можливості генерації відео в масштабах.
    3.
    Економічна ефективність: Використовуючи хмарну інфраструктуру, бізнеси можуть отримати доступ до потужних ШІ інструментів для відео без необхідності інвестувати в дороге апаратне забезпечення.
  3. Генерація відео в реальному часі: Зростає потреба в динамічному відео в реальному часі, особливо в соціальних мережах та рекламі.
  4. Інтеграція з популярними платформами: Постачальники SaaS (SaaS providers) інтегрують свої рішення з існуючими платформами, такими як електронна комерція (e-commerce), соціальні мережі (social media) та системи управління навчанням (LMS).

5. Висновок

Ця стаття надає детальну структуру для ШІ тексту у відео (Text-to-Video AI) та синхронізації lip-sync, висвітлюючи ключові моделі глибинного навчання, які використовуються для генерації високоякісних відео з тексту. Також ми демонструємо обчислювальні проблеми, зокрема в аспектах використання GPU та споживання енергії, які є критичними для генерації відео в реальному часі.

Зростаючий попит на автоматизований відеоконтент та розвиток платформ SaaS (SaaS platforms) прокладають шлях до нової ери у створенні контенту. Оскільки ця сфера продовжує розвиватися, необхідні подальші дослідження для оптимізації цих систем для реального часу та енергетичної ефективності, щоб забезпечити, що ШІ тексту у відео (Text-to-Video AI) стане масштабованим і сталим рішенням для бізнесів у різних галузях.

Список літератури

  1. Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., & Bengio, Y. (2014). Generative Adversarial Nets. У Proceedings of the 27th International Conference on Neural Information Processing Systems (NIPS 2014), 2672–2680.
    Посилання на статтю
  2. Zhu, J.-Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. У Proceedings of the IEEE International Conference on Computer Vision (ICCV 2017), 2223–2232.
    Посилання на статтю
  3. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. A., Kaiser, Ł., & Polosukhin, I. (2017). Attention is All You Need. У Proceedings of NeurIPS 2017, 30, 5998–6008.
    Посилання на статтю
  4. Kingma, D. P., & Welling, M. (2013). Auto-Encoding Variational Bayes. У Proceedings of the 2nd International Conference on Learning Representations (ICLR 2014).
    Посилання на статтю
  5. Chen, Y., Zhang, L., He, X., & Liao, X. (2020). Wav2Lip: Accurately Synchronizing Lip Movements with Audio for Realistic Video Generation. У Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2020), 11984–11993.
    Посилання на статтю
  6. Suwajanakorn, S., Seitz, S. M., & Matusik, W. (2017). Synthesizing Obama: Learning Lip Sync from Audio. У ACM Transactions on Graphics (TOG), 36(4), 1–13.
    Посилання на статтю
  7. Chen, X., & Wang, Z. (2021). Text-to-Video Generation with Temporal Consistency. У Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2021).
    Посилання на статтю

Перекладено з: From Words to Worlds: Deep Learning Algorithms for Seamless Text-to-Video Synthesis and Lip-Sync Synchronization

Leave a Reply

Your email address will not be published. Required fields are marked *