PolyAnalyst теперь “говорит” и “читает” по-русски // 05 Ноября 2012

PolyAnalyst теперь “говорит” и “читает” по-русски

Компания Мегапьютер Интеллидженс делает систему анализа данных и текстов PolyAnalyst еще ближе к российскому пользователю. Теперь, модули текстового анализа Text OLAP и Taxonomies работают с русскоязычными текстами.

В PolyAnalyst встроены алгоритмы работы с текстовыми данными двух видов:

  1. Алгоритмы, извлекающие ключевые понятия из текстов и работающие с ними;
  2. Алгоритмы, сортирующие тексты на классы, определяемые пользователем с помощью языка запросов.

Первый вид алгоритмов работает только с текстами на английском языке - при этом используется специальный словарь понятий английского языка. Алгоритмы второго типа теперь могут работать с текстами и на английском, и на русском языках.

Text OLAP (матрицы измерений) и Taxonomies (таксономии) - это похожие друг на друга методы категоризации текстов. В Text OLAP пользователь создает именованные столбцы - измерения - состоящие из текстовых запросов. Например: "[добыча] и [нефть] и не ([руда] или [уголь] или [газ])". В процессе работы алгоритма, PolyAnalyst применяет каждое из условий к каждому документу в базе данных и в случае удовлетворения условия относит этот документ к соответствующей категории. После работы модуля пользователь может выбирать различные элементы матрицы измерений и просматривать на экране тексты, удовлетворяющие выбранным условиям. Найденные слова будут в этих документах подкрашены разным цветом.

Работа с таксономиями очень похожа на работу с TextOLAP. Только здесь пользователь строит иерархическую структуру из таких же условий, как и в матрицах измерений. Система пытается соотнести каждый документ с узлами этого дерева. После работы модуля пользователь также может перемещаться по узлам наполненной таксономии, просматривая отфильтрованные документы с подкрашенными словами.

Матрицы измерений и таксономии дают возможность пользователю взглянуть на коллекцию его документов под самыми разными углами. Но это не все: на основе этих объектов можно делать и другие, более сложные методы анализа. Например, анализ связей (Link Analysis), показывающий, насколько связаны друг с другом различные категории текстов, описанные пользователем. Или включать тексты как независимые сущности в другие методы линейного и нелинейного анализа. Все это приводит к плотной интеграции подходов data и text mining в единую концепцию анализа информации.

Источник: Megaputer

Читайте еще:

Создателя ботнета осудили на четыре года тюрьмы

Создателя ботнета осудили на четыре года тюрьмы

27-летнего создателя Bredolab в понедельник, 21 мая, в Армении осудили на четыре года тюремного заключения за использование этого ботнета для проведения DDoS-атак на целый ряд компьютерных систем. Как сообщает издание PCWorld, 27-летний гражданин России армянского происхождения Георгий Аванесов (Georgy Avanesov) был...

15 Ноя 2012

Убийство за виртуальную подлянку

Убийство за виртуальную подлянку

Геймер из Шанхая Ку Ченвэй убил друга, который продал его виртуальный меч — оружие, которым Ку воевал на виртуальных просторах многопользовательской ролевой игры Legend of Mir 3. «Саблю дракона» 41-летний Ку Ченвэй и его приятель Жу Каоюань выиграли около месяца...

03 Ноя 2012

SoftLine стала реселлером CREDANT Technologies

SoftLine стала реселлером CREDANT Technologies

Компания SoftLine объявляет о заключении партнерского соглашения с американской компанией CREDANT Technologies, поставщиком решений в области сетевой безопасности. Компания SoftLine объявляет о заключении партнерского соглашения с американской компанией CREDANT Technologies, поставщиком решений в области сетевой безопасности. Согласно условиям договора, SoftLine получила...

18 Ноя 2012

16.04.2013
Total Commander - лучший среди файловых менеджеров
Если еще недавно все радовались появлению Windows и его «удобнейшему» интерфейсу с окнами, где перемещать...
16.04.2013
Avast - один из лучших бюджетных антивирусов
Не мало количество пользователей, не скрывающих необходимость в защите компьютера при помощи антивирусов пользуются именно...
16.04.2013
NOD32 Smart Security 6, получил обновление!
Компания ESET является одним из самых мощных разработчиков, выпускающих качественное программное обеспечение, направленное на защиту...
30.05.2012
Осторожно спам Сбербанка
В последнее время участилась массовая рассылка фишинговых электронных писем от мошенников, якобы работников Сбербанка России....
29.05.2012
Новый вирус в сети интернет
"Лаборатория Касперского" обнаружила новую вредоносную программу, которая активно используется в качестве кибероружия , распространяемого по...