Бази даних на основі векторів: Основний елемент застосунків, орієнтованих на AI

текст перекладу
pic

Це зображення є уявленням штучного інтелекту — ця стаття моя, редагована за допомогою Grammarly WJR

Дані — нова нафта

Що це означає?

Для більшості компаній це схоже на вилив сирої нафти, що накопичується на землі, забруднюючи навколишнє середовище.

Якщо це не має сенсу, уявіть себе збирачем сміття. Все, що людина більше не хоче і що не має для неї вартості, є сміттям. І якщо той, хто збирає це, не має передбачення, він просто продовжуватиме збирати це і кидати в одну велику купу. Це було половиною 20 століття на Стейтен-Айленді. Сміття йшло з усіх районів, накопичуючись. Потім хтось зрозумів, що це не має майбутнього, і вирішив розділити процес збору та організувати місце збору на органічне, неорганічне та корисне для переробки.

Після цього вони побачили багатство в руках від предметів, які можна було переслати компаніям для повторного використання базових матеріалів, компостування біорозкладних матеріалів в ґрунт і біологічних відходів в енергію.

Дані проходять через той самий цикл. Дані виходять з усього і всіх, коли вони ходять з телефонами, їздять в автомобілях, літаках, будинках або приміщеннях. Це безперервний потік сирих даних, які не переробляються в корисну інформацію.

Тож як переробляти дані?

По-перше, ми повинні створити канал з місця їх походження до місця зберігання. Так само, як і з сирою нафтою, яка викачується з землі в резервуари. З даними ми їх видобуваємо, трансформуємо і завантажуємо в резервуари, які ми називаємо таблицями.

Якщо дані не зовсім підходять до резервуару, ми повинні трансформувати ці сирі дані в колодязі цього резервуару, які ми називаємо полями.

Як тільки цей канал встановлений і працює, ми отримаємо безперервний потік даних, які тепер потрібно перетворити на корисні продукти.

Тепер, коли ми маємо ці сирі дані, вони все ще мають обмежену цінність. Їх потрібно очистити.

Перше, що ми робимо, це проектуємо сховище у вигляді фактів, таблиць пошуку та вимірів. Це схоже на очищення або перегонку вашої сирої нафти в базові форми, такі як моторне масло, бензин і авіаційне паливо, а також залишки, як космолін, вазелін і, на жаль, їжа.

Якщо у вас є ресторан, який має додаток, і ви пропонуєте чудові знижки для людей, щоб вони користувалися ним, можливо, ви створили магазин для того, щоб зчитувати все, коли вони заходять, скільки часу зайняло в черзі, які інгредієнти вони вибрали, страву, касира, спосіб оплати, зупинку на фонтані з газованими напоями, газовану воду і будь-які додатки. Зараз все це неорганізовано, і його потрібно розділити на правильні контейнери.

Всі компоненти, які беруть участь у візиті, завантажуються в таблиці, що посилаються на коди в таблиці, яка записує факти візиту. Компоненти, такі як інгредієнти, клієнт, співробітник, харчові продукти. Ми називаємо це вимірами.

Весь візит — це факт, де час і дата завантажуються в контейнер (таблицю) і мають коди для посилання на все, що знаходиться в вимірі чи таблиці пошуку.

Таблиця пошуку — це дані, необхідні для ідентифікації елементів у вимірі, таких як поштові індекси для пошуку міст і штатів, наприклад.

Якщо ви розмістили всі ці елементи в правильному місці, ви можете створювати такі речі, як інформаційні панелі, звіти, аналітику та прогнозну аналітику.

Інформаційна панель може показати вам все, що відбувається в цей момент. Не дуже корисно, якщо ви не плануєте викликати більше співробітників або купити більше м'яса, але якщо ви були б компанією доставки з сотнею вантажівок на дорозі, ви б одразу дізналися, чи є "перешкода" на шляху, що потребує відправлення ще однієї заповненої чи порожньої вантажівки в локацію.

Звіт — це просто підрахунок того, скільки клієнтів і обслужених страв було вчора чи в інший день чи проміжок часу.

Аналітика може включати такі показники, як виробництво відходів, але цінних продуктів, як використане масло, компости чи харчові відходи.
текст перекладу
На відміну від цього, системи на основі векторів розуміють зміст. Наприклад, пошук за запитом "фотографії щасливих собак" у векторному пошуковому двигуні повертає зображення на основі їхнього вмісту, а не лише назв файлів.
2. Системи рекомендацій: Зберігаючи переваги користувачів і контент як вектори, платформи можуть рекомендувати елементи, схожі на історію користувача. Подумайте про те, як Netflix пропонує фільми чи Spotify рекомендує пісні.
3. AI-застосунки: Чат-боти, генеративний AI і великі мовні моделі (LLM) використовують векторні бази даних для реального часу пошуку інформації, покращуючи точність і чутливість.
4. Мультимодальні системи: Поєднання векторів з тексту, зображень і аудіо дозволяє системам працювати з різними типами даних, що дає змогу застосункам, таким як пошук відео або рекомендації контенту за допомогою голосу.

pic

Приклад архітектури системи рекомендацій

Чому векторні бази даних важливі для інженерів даних

Для інженерів даних векторні бази даних є справжнім зрушенням у парадигмі. Вони з'єднують традиційні робочі процеси з вимогами AI, де вектори є критичними.

Ось як вони вписуються в робочий процес інженерії даних:

  1. Підготовка даних: Інженери даних перетворюють неструктуровані дані в вектори за допомогою попередньо навчальних або налаштованих ML моделей. Цей процес часто включає в себе фреймворки, такі як TensorFlow, PyTorch або Hugging Face.
  2. Інтеграція: Зберігання векторів у векторних базах даних дозволяє швидко і масштабовано здійснювати пошук схожості, що безпосередньо підтримує AI-застосунки.
  3. AI-пайплайни: Векторні бази даних інтегруються в пайплайни «від початку до кінця», дозволяючи здійснювати реальний пошук і завдання рекомендацій, одночасно забезпечуючи низьку затримку.

Завдяки впровадженню векторних баз даних інженери даних дають змогу AI-командам ефективно впроваджувати передові рішення в масштабах.

pic

Висновок

Векторні бази даних — це не просто інструмент, це каталізатор інновацій в AI та інженерії даних. Як основа систем, що розуміють і взаємодіють з неструктурованими даними, вони відкривають нові можливості для AI-застосунків.

Для інженерів даних прийняття векторних баз даних означає залишатися попереду в швидко змінюваній галузі. Інтегруючи ці системи в пайплайни даних, вони можуть забезпечити роботу застосунків наступного покоління AI, від семантичного пошуку до персоналізованих рекомендацій та багато іншого. Із розвитком векторних баз даних синергія між інженерією даних і AI буде лише зростати, а самі векторні бази залишатимуться в серці цієї трансформації.

Перекладено з: Vector Databases: The Backbone of AI-Driven Applications

Leave a Reply

Your email address will not be published. Required fields are marked *