Поле генерації природної мови (Natural Language Generation, NLG) призвело до створення AI-систем, які можуть генерувати різноманітний та складний текст. Однак оцінка якості цих результатів залишається складним завданням. Традиційні метрики, такі як BLEU та ROUGE, порівнюють згенерований текст з еталонними текстами.
Ці методи мають обмежену кореляцію з людськими оцінками, особливо у творчих завданнях. Останні дослідження вивчали можливість використання великих мовних моделей (Large Language Models, LLMs) як еталонів без посилань, але ці методи також мають свої обмеження. Таким чином, існує потреба в більш ефективних методах для оцінки результатів NLG.
G-EVAL був розроблений для вирішення недоліків існуючих методів оцінки NLG. Він використовує LLM з підходом ланцюга роздумів (Chain-of-Thought, CoT) і підхід заповнення форм для оцінки результатів NLG.
G-EVAL досягає вищої кореляції з людськими оцінками порівняно з еталонними та без-еталонними метриками. Підхід ланцюга роздумів (CoT) покращує ефективність оцінювачів на основі LLM. Надання детальних кроків оцінки за допомогою CoT дає більше контексту та керівництва для LLM.
Рис. 1. Загальна структура G-EVAL
Ця стаття обговорює функціональність G-EVAL, розглядаючи проблеми, які він вирішує порівняно з попередніми методами, а також його наслідки. Для додаткових відомостей зверніться до статті G-EVAL.
Проблема існуючих методів оцінки
Існуючі методи оцінки систем NLG мають кілька обмежень, які G-EVAL має на меті подолати. Ось деякі з проблем цих методів:
- Необхідність еталонних результатів: Багато традиційних метрик, таких як BLEU та ROUGE, потребують наявності еталонних результатів. Це суттєвий недолік, оскільки збір людських еталонів для нових завдань є дорогим і часозатратним.
- Низька кореляція з людськими оцінками: Показано, що традиційні автоматичні метрики мають відносно низьку кореляцію з людськими оцінками. Це особливо вірно для завдань відкритого генерування, які вимагають творчості та різноманітності.
- Невміння оцінювати якість контенту: Метрики на основі n-грама не оцінюють якість контенту або не виявляють синтаксичних помилок, тому вони не точно відображають надійність систем NLG.
- Обмеження, специфічні для завдання: Деякі оцінювачі призначені для конкретних завдань, таких як оцінка фактичної послідовності в резюме (FactCC, QAGS) або когерентності діалогу. Ці метрики не можна узагальнити на інші завдання NLG і не вимірюють загальну якість тексту.
Як працює G-EVAL: детальніше
G-EVAL — це фреймворк для оцінки якості текстів, згенерованих системами NLG, який використовує LLM з підходом ланцюга роздумів (CoT) і парадигмою заповнення форм. Цей фреймворк покращує кореляцію між автоматичними оцінками та людськими судженнями. Ось основні компоненти та кроки, включені в фреймворк G-EVAL:
Запит для оцінки NLG
Процес починається з інструкції на природній мові або запиту, що визначає завдання оцінки та бажані критерії оцінки. Наприклад, для узагальнення тексту запит містить інструкції, такі як "Вам буде надано одне узагальнення, написане для новинної статті. Ваше завдання — оцінити узагальнення за однією метрикою".
Запит також містить спеціалізовані критерії оцінки, що стосуються конкретного завдання NLG, такі як когерентність, стислість або граматика. Наприклад, при оцінці когерентності запит включає детальне визначення когерентності, що відповідає на якісне питання DUC щодо структури та організації.
Автоматичне генерування ланцюга роздумів (CoT)
Наступним кроком G-EVAL використовує LLM для генерування серії проміжних інструкцій або ланцюга роздумів (CoT), що описують покроковий процес оцінки.
Ці кроки ланцюга роздумів (CoT) надають більше контексту та керівництва для LLM, щоб здійснити оцінку.
Наприклад, при оцінці когерентності LLM може генерувати кроки, такі як "Уважно прочитайте новинну статтю та визначте основну тему та ключові моменти" і "Прочитайте узагальнення та порівняйте його з новинною статтею."
Парадигма заповнення форм
На відміну від методів, таких як GPTScore, які формулюють оцінку як задачу умовного генерування, G-EVAL використовує парадигму заповнення форм. LLM отримує запит на заповнення структурованої форми на основі своєї оцінки.
Наприклад, після прочитання узагальнення LLM заповнює бал для кожного аспекту оцінки, такого як когерентність, використовуючи шкалу, визначену в критеріях оцінки. LLM викликається з розробленим запитом, авто-генерованим CoT, вхідним контекстом і цільовим текстом, і він виводить оцінку.
Функція оцінки
Функція оцінки потім уточнює вихід LLM, щоб отримати більш точну оцінку. G-EVAL використовує ймовірності вихідних токенів з LLM для нормалізації балів і підсумовування їх зважених значень як фінальний результат.
Задано попередньо визначений набір оцінок, LLM розраховує ймовірність кожної оцінки, і фінальний бал є сумою кожної оцінки, помноженої на її ймовірність.
Це дозволяє отримати більш детальні, безперервні оцінки, які краще відображають якість згенерованого тексту.
Експериментальна установка G-EVAL
Експерименти, проведені для оцінки G-EVAL, включали кілька бенчмарків та порівняння з існуючими методами оцінки на найвищому рівні.
Бенчмарки
Дані, що використовуються для оцінки G-EVAL, включають такі:
- SummEval: Цей бенчмарк порівнює різні методи оцінки для узагальнення. Він надає людські оцінки для чотирьох аспектів кожного узагальнення: флюентність, когерентність, послідовність та релевантність. Набір даних базується на наборі CNN/DailyMail.
- Topical-Chat: Цей бенчмарк використовується для оцінки систем генерації відповідей в діалогах, що використовують знання. Людські оцінки використовуються для чотирьох аспектів: натуральність, когерентність, зацікавленість та обґрунтованість.
- QAGS: Цей бенчмарк оцінює галюцинації в завданнях узагальнення, вимірюючи розмірність послідовності узагальнень на двох наборах даних, CNN/DailyMail та XSum.
Базові лінії
G-EVAL було порівняно з кількома базовими оцінювачами, серед яких:
- Метрики на основі n-грама:
- BLEU: Широко використовувана метрика для машинного перекладу, що обчислює геометричне середнє модифікованої точності n-грама та штраф за стислість.
- ROUGE: Метрика, орієнтована на відгук для оцінки узагальнень, яка вимірює перетин n-грама між згенерованим узагальненням та набором еталонних узагальнень.
Метрики на основі вбудовувань:
- WMD: Метрика, яка вимірює відстань між двома текстами на основі вбудовувань слів.
- BERTScore: Метрика, яка вимірює схожість між двома текстами на основі контекстуалізованого вбудовування з BERT.
- MoverScore: Покращення BERTScore з м'якими вирівнюваннями та новими методами агрегації.
Оцінювачі на основі навчання:
- BARTScore: Єдиний оцінювач, що оцінює середнє ймовірність попередньо навченого енкодера-декодера, BART.
- UniEval: Єдиний оцінювач, який може оцінювати різні аспекти генерації тексту як завдання QA, використовуючи попередньо навчену модель T5.
- GPTScore: Фреймворк, який оцінює тексти за допомогою моделей генеративного попереднього навчання, таких як GPT-3.
Це припускає, що модель з попереднім генеративним навчанням надасть вищу ймовірність результатам високої якості.
Оцінювачі, специфічні для завдання:
- FactCC: Класифікатор на основі BERT, який передбачає, чи є узагальнення послідовним з вихідним документом.
- QAGS: Оцінювач на основі питання-відповіді, який генерує питання з узагальнення і перевіряє, чи можна знайти відповіді в вихідному документі.
- USR: Оцінювач, який оцінює генерацію відповідей у діалогах з різних перспектив.
Деталі реалізації
Експерименти використовували специфічні конфігурації та налаштування. Вони включають:
- LLMs: Для експериментів використовувалась родина GPT від OpenAI, включаючи GPT-3.5 (text-davinci-003) та GPT-4.
- Налаштування температури: Для GPT-3.5 температура декодування була встановлена на 0, щоб збільшити детермінованість моделі. Для GPT-4, який не підтримує виведення ймовірностей токенів, налаштування було 'n = 20, температура = 1, top p = 1' для вибірки 20 разів для оцінки ймовірностей токенів.
- Варіанти G-EVAL: G-EVAL-4 вказує на G-EVAL з GPT-4, а G-EVAL-3.5 вказує на G-EVAL з GPT-3.5.
Оцінювальні метрики
Ці метрики використовуються для оцінки кореляції між автоматичними оцінками та людськими судженнями.
- Кореляція Спірмана (ρ): Використовується для вимірювання кореляції між оцінками та людськими судженнями.
- Кореляція Кендалла-Тау (τ): Використовується для вимірювання кореляції рангу між оцінками та людськими судженнями.
- Кореляція Пірсона (r): Використовується для вимірювання лінійної кореляції між двома наборами оцінок.
Результати та ключові висновки
Фреймворк G-EVAL був протестований на різних завданнях NLG та порівняний з існуючими методами оцінки на найвищому рівні. Результати показали, що G-EVAL перевершує найсучасніші оцінювачі за кореляцією з людськими судженнями. Ось розбір ключових висновків:
Завдання узагальнення (бенчмарк SummEval)
G-EVAL показує значно вищу кореляцію з людськими оцінками порівняно з традиційними метриками, такими як ROUGE та BERTScore. Ці традиційні метрики порівнюють семантичну схожість між виходом моделі та еталонним текстом, але показують погані результати за більшістю вимірювань.
G-EVAL, що використовує GPT-4 як основну модель (G-EVAL-4), досяг набагато більшої кореспонденції з людськими оцінками, ніж G-EVAL, що використовує GPT-3.5 (G-EVAL-3.5). Це показує, що більший розмір моделі GPT-4 корисний для оцінки узагальнень.
G-EVAL-4 досяг кореляції Спірмана 0.514 з людськими оцінками, перевершуючи всі попередні методи значною мірою. Кореляція Спірмана вимірює монотонну залежність між метрикою та людськими оцінками.
G-EVAL також перевершує GPTScore, який спирається на умовні ймовірності GPT для заданої цілі, демонструючи ефективність парадигми заповнення форм.
Використання підходу ланцюга роздумів покращує ефективність G-EVAL. G-EVAL-4 з CoT має вищу кореляцію з людськими оцінками, ніж G-EVAL-4 без CoT.
Рис. 2. Спірманова (ρ) та Кендалл-Тау (τ) кореляції на рівні узагальнення для різних метрик
Завдання генерації діалогів (бенчмарк Topical-Chat)
G-EVAL також значно перевищує попередні найсучасніші оцінювачі на бенчмарк Topical-Chat для генерації відповідей у діалогах. Зокрема, G-EVAL-3.5 досяг подібних результатів до G-EVAL-4 на цьому бенчмарк, що показує, що цей бенчмарк є відносно легким для моделі G-EVAL.
Метрики на основі схожості мають деяку узгодженість з людьми щодо того, наскільки зацікавлені та обґрунтовані відповіді, але не щодо інших аспектів. Однак G-EVAL показав більшу консистентність з людськими оцінками по всіх аспектах.
Рис. 3.
Різні метрики на бенчмарку Topical-Chat
Виявлення галюцинацій (бенчмарк QAGS)
G-EVAL-4 перевершує всі найсучасніші оцінювачі на бенчмарку QAGS, який вимірює розмірність консистентності узагальнень. Він показує значний відрив на більш абстрактному піднаборі (QAGS-Xsum). Однак G-EVAL-3.5 не вдалося показати хороші результати на цьому бенчмарку, що вказує на те, що аспект консистентності чутливий до можливостей LLM.
BARTScore добре працює на більш екстрактивному піднаборі (QAGS-CNN), але має низьку кореляцію з більш абстрактним піднабором (QAGS-Xsum). UniEval має хорошу кореляцію на обох піднаборів даних.
Рис. 4. Кореляції різних метрик на бенчмарку QAGS
Аналіз переваги LLM
G-EVAL-4 надає вищі бали для узагальнень, згенерованих LLM, навіть коли людські судді віддають перевагу узагальненням, написаним людьми. Це вказує на потенційний ухил на користь текстів, згенерованих LLM.
Це може бути пов'язано з низькою узгодженістю між анотаторами при оцінці узагальнень, написаних людьми, та згенерованих LLM, або тому, що модель може ділитися тим самим уявленням про критерії оцінки під час генерації та оцінки.
Рис. 5. Бали G-EVAL-4 для узагальнень, написаних людьми, та узагальнень GPT-3.5
Вплив розміру моделі
G-EVAL-4 загалом показує вищі кореляції, ніж G-EVAL-3.5. Це свідчить про те, що більший розмір моделі може покращити ефективність G-EVAL, особливо для складних завдань, таких як оцінка консистентності та релевантності.
Практичні наслідки та майбутні напрямки
Ось деякі наслідки та майбутні напрямки для G-EVAL.
Наслідки
- Надійна оцінка NLG: G-EVAL пропонує більш надійний метод для оцінки систем NLG, використовуючи LLM з CoT, що має високу кореляцію з людськими судженнями.
- Без еталонів: G-EVAL не потребує еталонних текстів, що робить його корисним для нових завдань, де еталони важко отримати.
- Деталізовані бали: Він надає безперервні бали, використовуючи ймовірності токенів, що дозволяє робити тонкі оцінки.
- Увага до ухилів: Потенційні ухили в оцінювачах LLM вимагають розробки стратегій пом'якшення.
Майбутні напрямки
- Зменшення ухилів LLM: Майбутні дослідження повинні зосередитися на зменшенні ухилу проти текстів, згенерованих LLM, щоб забезпечити справедливі оцінки.
- Розуміння поведінки LLM: Потрібні подальші дослідження, щоб зрозуміти, як LLM сприймають якість тексту і як вони її оцінюють, що може покращити їх використання в оцінках.
- Оптимізація ланцюга роздумів (CoT): Подальші дослідження того, як оптимізувати CoT для різних завдань, можуть покращити оцінку на основі LLM.
- Використання розміру моделі: Оскільки більші LLM, як GPT-4, призводять до кращої ефективності, майбутні роботи повинні використовувати досягнення в LLM.
Висновок
G-EVAL — це новий фреймворк, який використовує великі мовні моделі (LLMs) з ланцюгом роздумів (CoT) для оцінки якості згенерованих текстів. G-EVAL використовує парадигму заповнення форм для оцінки якості текстів, показуючи, що він перевершує найсучасніші оцінювачі як для завдань узагальнення тексту, так і для генерації діалогів. Здатність фреймворка досягати вищої кореспонденції з людськими оцінками показує його ефективність у відтворенні людських суджень. Однак важливо враховувати вбудовані ухили оцінювачів на основі LLM.
Перекладено з: G-EVAL: GPT-4-Powered NLG Evaluation