Компания Мегапьютер Интеллидженс делает систему анализа данных и текстов PolyAnalyst еще ближе к российскому пользователю. Теперь,
модули текстового анализа Text OLAP и Taxonomies работают с
русскоязычными текстами.
В PolyAnalyst встроены алгоритмы работы с текстовыми данными двух
видов:
-
Алгоритмы, извлекающие ключевые понятия из текстов и работающие с ними;
- Алгоритмы, сортирующие тексты на классы, определяемые пользователем с помощью языка запросов.
Первый вид алгоритмов работает только с текстами на английском языке - при этом используется специальный словарь понятий английского языка.
Алгоритмы второго типа теперь могут работать с текстами и на
английском, и на русском языках.
Text OLAP (матрицы измерений) и Taxonomies (таксономии) - это похожие друг на друга методы категоризации текстов. В Text OLAP пользователь создает именованные столбцы - измерения - состоящие из текстовых запросов. Например: "[добыча] и [нефть] и не ([руда] или [уголь] или [газ])". В процессе работы алгоритма, PolyAnalyst применяет каждое из условий к каждому документу в базе данных и в случае удовлетворения условия относит этот документ к соответствующей категории. После работы модуля пользователь может выбирать различные элементы матрицы измерений и просматривать на экране тексты, удовлетворяющие выбранным условиям. Найденные слова будут в этих документах подкрашены разным цветом.
Работа с таксономиями очень похожа на работу с TextOLAP. Только здесь пользователь строит иерархическую структуру из таких же условий, как и в матрицах измерений. Система пытается соотнести каждый документ с узлами этого дерева. После работы модуля пользователь также может
перемещаться по узлам наполненной таксономии, просматривая
отфильтрованные документы с подкрашенными словами.
Матрицы измерений и таксономии дают возможность пользователю взглянуть на коллекцию его документов под самыми разными углами. Но это не все:
на основе этих объектов можно делать и другие, более сложные методы
анализа. Например, анализ связей (Link Analysis), показывающий,
насколько связаны друг с другом различные категории текстов, описанные пользователем. Или включать тексты как независимые сущности в другие методы линейного и нелинейного анализа. Все это приводит к плотной интеграции подходов data и text mining в единую концепцию анализа информации.
Источник:
Megaputer
|