Nigma.Ru начинает работы над собственным индексом // 10 Декабря 2012

Nigma.Ru начинает работы над собственным индексом

29 ноября 2005 года разработчики поисковой системы Nigma.Ru объявили о начале работ над собственным индексом, который позволит избежать обращений к другим поисковым системам.

Предполагается, что до конца 2005 года закончится альфа-тестирование алгоритма поиска и будет заказано необходимое оборудование, чтобы проиндексировать весь российский интернет, т.е. более 1 миллиарда документов. В данный момент около 25 тыс наиболее популярных сайтов проиндексировано «в глубину» (по несколько тысяч страниц с каждого сайта) и еще 200 тыс — для полноты поиска.

Владельцы сайтов, которые не попали в индекс, могут добавить свой сайт на специальной странице. Объем проиндексированной информации в тестовой базе составляет около 220 Гб — это примерно 145 тысяч 500-страничных книг.

Протестировать поиск можно, сняв «галочки» других поисковых машин с главной страницы, оставив только «Nigma». Команда разработчиков будет рада получить комментарии и предложения по улучшению функциональности сайта.

В данный момент реализован поиск запросов с учетом близости слов, а также двухстадийный алгоритм морфологического поиска (на первой стадии ведется поиск точно тех словоформ, которые задал пользователь, а вторая стадия запускается только если на первой стадии найдено слишком мало документов). В ближайшее время будет расширен синтаксис запросов для поиска фраз (соответствующие алгоритмы уже реализованы).

Напомним, что поисковая система Nigma.Ru была запущена в апреле этого года. Создатели системы (Научный коллектив, состоящий из студентов и аспирантов факультетов ВМиК и психологии МГУ им.М. В. Ломоносова) заявили тогда, что ими были разработаны оригинальные алгоритмы ранжирования результатов поиска.

До последнего времени Nigma.Ru была всего лишь алгоритмом, который пользовался базами других поисковых систем. Но после создания собственного индекса эта система уже сможет называться полноправным игроком на рынке поиска, с чем согласен Виктор Лавренко, руководитель группы разработчиков Nigma.Ru.

«Наша работа сосредоточена на разработке новых поисковых алгоритмов, использующих искусственный интеллект, — сообщил он в интервью „Вебпланете“. — Наличие собственного индекса для этой работы не является обязательным. Более того, раньше нам казалось, что в индексировании вообще нет места каким-то существенным научным прорывам — теория индексирования существует достаточно давно, и методы построения индексов давно известны и опубликованы в учебниках. Но после полугода исследований мы пришли к выводу, что, с одной стороны, наличие собственного индекса сильно улучшило бы как производительность, так и качество кластеризации документов, а с другой стороны, в индексировании мы обнаружили области, где искусственный интеллект мог бы сильно помочь. Поэтому я думаю, что в самом ближайшем будущем возможна такая ситуация, что размеры нашего собственного индекса превысят индексы других отечественных поисковиков. В такой ситуации производить мета-поиск будет бессмысленно, и мы в таком случае наверняка полностью от него откажемся. Другой вариант — мы сделаем еще одну поисковую систему, чтобы те пользователи, которые привыкли к „Нигме“, имели ту же функциональность, что и раньше».

Источник: Webplanet

Читайте еще:

ООН узаконила деловую электронную корреспонденцию

ООН узаконила деловую электронную корреспонденцию

28 ноября Генеральная ассамблея ООН приняла Конвенцию об использовании электронных сообщений в международных договорах. Документ был разработан Комиссией ООН по праву международной торговли (UNCITRAL). Конвенция определяет правовой статус электронных сообщений, относящихся к заключению или исполнению договоров международной торговли. При этом учитывается...

04 Дек 2012

Чего ждать от Microsoft?

Чего ждать от Microsoft?

Новая стратегия Microsoft призвана фокусироваться на интернете как программной платформе. В связи с этим какие конкретно программы может выпустить каждое из трех подразделений редмондского гиганта? Как известно, за последний месяц в лагере Microsoft произошел целый ряд значительных событий: было официально объявлено...

20 Янв 2013

В Москве парализована торговля контрафактом

В Москве парализована торговля контрафактом

С конца прошлой недели УБЭП ГУВД Москвы проводит крупнейшую операцию по борьбе с медиапиратством "Контрафакт". В результате операции в столице парализована торговля пиратскими CD и DVD - закрыты три четверти точек, торговавших нелегальной продукцией. В частности, закрыты ларьки с музыкой,...

04 Фев 2013

16.04.2013
Total Commander - лучший среди файловых менеджеров
Если еще недавно все радовались появлению Windows и его «удобнейшему» интерфейсу с окнами, где перемещать...
16.04.2013
Avast - один из лучших бюджетных антивирусов
Не мало количество пользователей, не скрывающих необходимость в защите компьютера при помощи антивирусов пользуются именно...
16.04.2013
NOD32 Smart Security 6, получил обновление!
Компания ESET является одним из самых мощных разработчиков, выпускающих качественное программное обеспечение, направленное на защиту...
30.05.2012
Осторожно спам Сбербанка
В последнее время участилась массовая рассылка фишинговых электронных писем от мошенников, якобы работников Сбербанка России....
29.05.2012
Новый вирус в сети интернет
"Лаборатория Касперского" обнаружила новую вредоносную программу, которая активно используется в качестве кибероружия , распространяемого по...