Комп’ютеризовані моделі тем:

Оцінка моделей "на око" була оригінальним підходом до моделей тем для людства. Потім з'явилися комп'ютеризовані моделі тем — набір алгоритмів NLP, які намагаються моделювати текст, виявляючи латентні теми в колекціях документів. Вони є родиною методів текстового аналізу, популярних для аналізу неструктурованих текстових даних в економіці та політичних науках, і можуть бути корисними для описового аналізу неструктурованих наборів даних соціальних медіа.

Більшість статистичного моделювання тем є методом нез supervised learning, оскільки не вимагає позначених даних (тобто будь-яких попередніх анотацій/категорій для текстів). Тому моделі тем, як і нез supervised LDA-аналіз, є методами нез supervised learning, оскільки вони зазвичай не використовують людсько-куровані "зерна" для тем, а замість цього отримують їх виключно з даних. Отже, більшість моделювання тем корисне для текстового аналізу, коли анотовані (тобто позначені) дані недоступні, а також коли анотація є затратною та дорогою. У той час як традиційні методи зменшення даних є нез supervised, зменшуючи кількість ознак, моделювання тем є непрямими техніками зменшення даних, оскільки працює шляхом уловлення інтуїції, що певні слова з'являються частіше в документах про певні "статистично значущі теми". Наприклад, dog і bone зустрічаються частіше в документах на тему "собаки".

Оригінальна техніка моделювання тем була розроблена в 1998 році Рагаваном, Тамакі та Вемпалой. Потім з'явилася ймовірнісна латентна семантична аналітика (PLSA) в 1998 році, створена Томасом Хоффманом.

Нез supervised Latent Dirichlet Allocation (LDA), розроблений на початку 2000-х американським комп'ютерним вченим Майклом Ірвіном Джорданом та його студентами, є найвідомішим алгоритмом моделювання тем. Це ймовірнісна структура навчання, яка дозволяє вивчати тематичну структуру документів та інших колекцій даних нез supervised способом.

Модель Pachinko Allocation покращує LDA.

Ієрархічний Latent Tree Analysis (HLTA) є альтернативою LDA.

Бібліотека під назвою gensim — це бібліотека Python для моделювання тем, індексації документів, пошуку за схожістю та інших функцій NLP.

Перекладено з: Computerized topic models:

Leave a Reply

Your email address will not be published. Required fields are marked *