В Рунете появилась новая поисковая машина Nigma.ru // 01 Февраля 2013

В Рунете появилась новая поисковая машина Nigma.ru

Интеллектуальная поисковая система Nigma.ru - результат работы научного коллектива, состоящего из студентов и аспирантов факультетов ВМиК и психологии МГУ им.М.В.Ломоносова - официально запущена в статусе альфа-версии (т.е. самой ранней версии).

Несмотря на то, что работы над поисковой системой продолжаются лишь 2.5 месяца, членами команды уже разработаны оригинальные алгоритмы ранжирования результатов, полученных от набора поисковых систем, с поддержкой русской морфологии и двухуровневая кластеризация.

Морфология реализована через отсылку в поисковые системы дублирующих запросов, в которых приведены все распространенные морфологические формы запрашиваемых слов. При этом, в отличие от имеющихся реализаций русской морфологии для поисковых систем, предлагаемый алгоритм не сокращает, а наоборот - увеличивает количество найденных документов, т.к. морфологически измененный запрос объединяется с исходным. Релевантность же также увеличивается (см. запрос ), т.к. используются специальные алгоритмы объединения результатов. Позиция найденной ссылки в результатах поиска отображается в виде (например, "Google: 5" означает, что ссылка находится на пятом месте в поисковой системе Google), а ссылки от морфологически измененных запросов - в виде (например, "Google-M: 10" - десятая ссылка в морфологически измененном запросе).

Результаты поиска объединяются с помощью специального алгоритма, причем только те результаты, которые Nigma.ru успевает получить от поисковых систем за 1.5 секунды (в очень редких случаях - за 5 секунд). Соответственно, алгоритм не выделяет какие-то поисковые системы таким образом, что результаты поиска от них имеют большую значимость, чем от других, т.к. нет гарантии, что за это время система успеет обработать от них результаты. Вместо этого, для их объединения используется статистическая информация о русском Интернете, такая как посещаемость (на базе публичных счетчиков) и цитируемость сайтов. Кроме того, учитываются другие специфичные для российского Интернета и русского языка особенности при объединении результатов.

В итоге, на подавляющее большинство поисковых запросов Nigma.ru выдает на порядок больше найденных сайтов, чем, например, при простом поиске на сайте Google.ru. Для того чтобы пользователь не запутался в этих результатах, они группируются в так называемые . Каждый кластер - это группа сайтов, относящихся, по мнению поисковой системы, к общей тематике. Научная группа решила использовать частотную кластеризацию по ключевым словам, поэтому названия кластеров - это тоже ключевые слова, которые пользователь может использовать для расширения своего запроса. В свою очередь, т.к. количество найденных кластеров также зачастую очень велико, интеллектуальный алгоритм объединяет кластеры в иерархию (пока - двухуровневую), которая позволяет представить их в более компактном виде. Например, введя очень общий запрос , на который поисковая система Nigma.ru выдает порядка полумиллиарда документов, в левой колонке вы видите самые популярные темы новостей, которые встречаются в Интернете. Нажав на тему (например, ), вы получите примеры новостных ресурсов, которые освещают эту тему. Если вы хотите получить больше ресурсов о новостях спорта, нужно нажать на - тогда система выдаст более двух миллионов ссылок о новостях спорта. Они, в свою очередь, тоже отклассифицированы по темам - есть футбол, хоккей и т.п.

Работа научной группы в части кластеризующих алгоритмов находится в начальной стадии, и ее участники планируют продолжать ее совершенствование. В ближайшее время поисковая система будет расширена экспертными системами, психологическими тестами, системами поведенческого анализа, и другими методами, базирующимися на таких алгоритмах искусственного интеллекта как искусственные нейронные сети, генетические алгоритмы, алгоритмы нечеткой логики и т.п. Исследования группы имеют научный характер, поэтому, после того как будет создана стабильная версия кода, планируется опубликовать его исходные тексты.

Дмитрий Гришин, генеральный директор Mail.ru: "Нам интересно поддерживать этот научный проект, т.к. мы считаем, что развитие поисковых технологий будет способствовать развитию всего российского сегмента сети Интернет. Обмен научным опытом позволит нам совершенствовать наши коммерческие технологии, функционирующие в рамках портала Mail.ru".

Сергей Петренко, Searchengines.ru: "Nigma.ru - очень оригинальный проект, который даже на такой ранней стадии своего развития уже включает интересные технологии, сочетающие искусственный интеллект и классические методы поиска в Интернете.

Мария Черницкая, iContext: "По большей части все мы пользуемся Интернетом для поиска информации. Чем короче путь от поискового запроса до получения того, что ищешь, тем, понятное дело, всем лучше. И чем больше исследований и разработок в этой области, тем больше выигрывает конечный пользователь.

Источник: @Astera

Читайте еще:

Библиотеку запрещенных книг уничтожили

Библиотеку запрещенных книг уничтожили "под корень"

Единственная в сети Рунета и Уанета библиотека запрещенных книг "Либрарий" подверглась нападению злоумышленников. Преступники проникли на сервера библиотеки в Калифорнии и уничтожили все тексты. Последние архивы-дубли библиотеки были также вскрыты и уничтожены, сообщает "Телекритика". Атака на электронную библиотеку "Либрарий", располагавшуюся...

16 Фев 2013

Продолжается борьба за сокращение энергопотребления дисплеев ноутбуков

Продолжается борьба за сокращение энергопотребления дисплеев ноутбуков

Группа по продлению времени работы ноутбуков от батарей (The Mobile PC Extended Battery Life Working Group (EBL-WG) – инициативная группа, основанная в 2002 году, занимающаяся выработкой решений по нормам энергопотребления различных компонентов мобильной техники, в числе которых технические рекомендации, методики...

23 Дек 2012

Открылся портал «Энциклопедия Санкт-Петербурга»

Открылся портал «Энциклопедия Санкт-Петербурга»

Историко-культурный интернет-портал «Энциклопедия Санкт-Петербурга» представлен в Законодательном собрании города во вторник. «Мы работали так, чтобы вся информация была максимально честной и верной. В экциклопедии есть все, что касается истории города, отдельных памятников, зданий, районов, событий», — сказал на презентации портала один...

29 Янв 2013

16.04.2013
Total Commander - лучший среди файловых менеджеров
Если еще недавно все радовались появлению Windows и его «удобнейшему» интерфейсу с окнами, где перемещать...
16.04.2013
Avast - один из лучших бюджетных антивирусов
Не мало количество пользователей, не скрывающих необходимость в защите компьютера при помощи антивирусов пользуются именно...
16.04.2013
NOD32 Smart Security 6, получил обновление!
Компания ESET является одним из самых мощных разработчиков, выпускающих качественное программное обеспечение, направленное на защиту...
30.05.2012
Осторожно спам Сбербанка
В последнее время участилась массовая рассылка фишинговых электронных писем от мошенников, якобы работников Сбербанка России....
29.05.2012
Новый вирус в сети интернет
"Лаборатория Касперского" обнаружила новую вредоносную программу, которая активно используется в качестве кибероружия , распространяемого по...