ImageNet – новые успехи крупнейшей в мире базы данных для распознавания образов // 23 Декабря 2012

ImageNet – новые успехи крупнейшей в мире базы данных для распознавания образов

Ученые из Стэнфордского и Принстонского университетов (США) сообщили о новых достижениях в компьютерном зрении. 36-летняя доктор наук Фей Фей Ли (Fei-Fei Li) из Стэнфорда вместе с группой коллег из Принстона сейчас руководит работой по развитию крупнейшей в мире базы данных ImageNet, которая является попыткой воссоздать человеческую зрительную систему и наполняется с 2007 г.

В частности, силами добровольцев выполняется постоянное уточнение данных. Сейчас база ImageNet, работающая на площадке Стэнфордского университета, насчитывает уже 14 197 122 изображения, разбитых на 21 841 категорию.

По словам доктора Ли, без новых алгоритмов распознавания изображений в статичных картинках и видеозаписях Интернет становится «сумеречной зоной», поскольку нынешние поисковые сервисы уже не в силах адекватно систематизировать огромные потоки новой визуальной информации. Для поиска картинок сегодня нужно вводить ключевые слова, причем не всегда содержание найденных картинок может четко соответствовать этим меткам. Картинка с кроликом может выводиться по слову «пушистый», либо в других запросах, никак не связанных с кроликами. Группа под руководством доктора Ли пытается создать стройную систему помеченных изображений, содержащую самые разные видимые объекты, от минералов до животных.

Метки в системе ImageNet создаются живыми людьми. В то же время, эта система служит мощным фундаментом для обучения машин, стремящихся автоматически распознать объект, не имеющий определенной метки, но близкий к одному из помеченных изображений по каким-либо признакам. Базу ImageNet используют многие исследователи. С 2009 года с применением этой базы написано более 300 научных публикаций. Летом текущего года мы писали о том, как два штатных ученых из лаборатории Google – Эндрю Нг (Andrew Y. Ng) и Джефф Дин (Jeff Dean) проверяли свою систему распознавания котов на изображения из ImageNet.

В нынешнем виде система ImageNet обеспечивает вдвое более высокую производительность по сравнению с более ранними решениями на основе классических нейронных сетей (программных моделей, имитирующих работу человеческого мозга). Теперь в работе системы активно используется вклад добровольцев со всего мира, поскольку объем поступающих данных растет взрывными темпами. Только социальные сети содержат более 200 млрд фотографий (данные по Фэйсбук), а каждую минуту пользователи загружают по 72 часа видеозаписей (данные по Ютьюб). Если бы эти данные обрабатывали только студенты, работающие с доктором Ли, на анализ и систематизацию ушли бы десятилетия. К счастью, Интернет в современном виде позволяет организовать многочисленные сообщества энтузиастов. Доктор Ли обратилась к сервису Mechanical Turk («Механическая индейка») компании Amazon, чтобы привлечь людей к небольшим задачам по описанию картинок.

Используя небольшой бюджет, выделенный университетом, команда разработчиков визуальной базы данных ImageNet быстро стала крупнейшим академическим пользователем Mechanical Turk. Каждый год авторы ImageNet нанимают от 20 до 30 тысяч человек, которые получают автоматически выбранные картинки и описывают их за небольшое вознаграждение. В среднем каждый привлеченный «внештатный сотрудник» идентифицирует 250 картинок за пять минут. В результате собрана не имеющая аналогов база данных для проведения исследований в области машинного зрения и распознавания образов.

Конечно, системе ImageNet есть, куда расти. Для систематизации изображений в ней используется глобальная база данных по словам английского языка WordNet. Эту базу данных начал собирать Джордж Миллер (George A. Miller), профессор психологии Принстонского университета, скончавшийся в июле этого года в возрасте 92 лет. Именно использование слов из системы WordNet считается одним из факторов, который сдерживает развитие системы ImageNet, поскольку эти слова зачастую не отображают современные реалии. В частности, сегодня больше людей интересуется поп-исполнителями и гаджетами, чем редкими видами травоядных динозавров.

Как бы то ни было, развитие ImageNet продолжается. Одним из новых исследований стало создание классификатора образов под шуточным названием «Infallible» («Непогрешимый»), автором которого выступает один из студентов-дипломников Цзя Ден. Особенность классификатора Infallible является изменяемый уровень абстракции. Поскольку словарная база WordNet разбита по жестким категориям, утилита Inafallible может менять уровень абстракции в зависимости от вероятности попадания образа в ту или иную категорию. Например, если система не уверена, что на картинке изображен кролик, уровень абстракции повышается до «млекопитающего» или еще выше, до «животного». Таким образом, на одном из уровней описание картинки рано или поздно становится точным. Более того, разработчики планируют еще больше повысить точность описаний картинок, создаваемых машинами вместе с живыми людьми.

Подробнее о развитии системы ImageNet можно прочитать на официальной странице проекта по адресу www.image-net.org.

По материалам сайта New York Times.

Читайте еще:

Bluetooth-устройства проработают 10 лет без смены батареек

Bluetooth-устройства проработают 10 лет без смены батареек

Одним из главных недостатков беспроводных клавиатур и мышей является необходимость в регулярной замене или подзарядке батарей. Пользователям известно, что ненадежные девайсы имеют обыкновение выходить из строя в самый неподходящий момент, например во время написания важного документа или в разгар онлайнового сражения. Технология, разработанная компанией Broadcom,...

08 Дек 2012

Прорыв в технологиях оперативной памяти

Прорыв в технологиях оперативной памяти

Компании Fujitsu и SuVolta продемонстрировали полностью работоспособные образцы новой памяти стандарта SRAM (Static Random Access Memory статическая оперативная память с произвольным доступом), изготовленные по давно известной технологии CMOS (Комплементарная Металл-Оксид-Полупроводниковая логика). Главным отличием этой технологии, получившей фирменное наименование «PowerShrink», является сниженное более чем в два...

13 Дек 2012

Apple не сможет продавать iPad в Китае?

Apple не сможет продавать iPad в Китае?

Китайский суд отклонил иск Apple к китайской компании Proview Technology, которую американский производитель обвиняет в нелегальном использовании бренда iPad, сообщает Reuters. Обвинение, предъявленное компании Proview Technology, было отклонено Народным судом города Шэньчжэнь. Выяснилось, что Proview Technology зарегистрировала торговую марку iPad в 2000...

15 Ноя 2012

16.04.2013
Total Commander - лучший среди файловых менеджеров
Если еще недавно все радовались появлению Windows и его «удобнейшему» интерфейсу с окнами, где перемещать...
16.04.2013
Avast - один из лучших бюджетных антивирусов
Не мало количество пользователей, не скрывающих необходимость в защите компьютера при помощи антивирусов пользуются именно...
16.04.2013
NOD32 Smart Security 6, получил обновление!
Компания ESET является одним из самых мощных разработчиков, выпускающих качественное программное обеспечение, направленное на защиту...
30.05.2012
Осторожно спам Сбербанка
В последнее время участилась массовая рассылка фишинговых электронных писем от мошенников, якобы работников Сбербанка России....
29.05.2012
Новый вирус в сети интернет
"Лаборатория Касперского" обнаружила новую вредоносную программу, которая активно используется в качестве кибероружия , распространяемого по...