Ученые из Стэнфордского и Принстонского университетов (США)
сообщили о новых достижениях в компьютерном зрении. 36-летняя доктор наук Фей
Фей Ли (Fei-Fei Li) из Стэнфорда вместе с группой коллег из Принстона сейчас
руководит работой по развитию крупнейшей в мире базы данных ImageNet, которая
является попыткой воссоздать человеческую зрительную систему и наполняется с 2007 г.
В частности, силами добровольцев выполняется постоянное уточнение данных. Сейчас база ImageNet,
работающая на площадке Стэнфордского университета, насчитывает уже 14 197 122
изображения, разбитых на 21 841 категорию.
По словам доктора Ли, без новых алгоритмов распознавания
изображений в статичных картинках и видеозаписях Интернет становится
«сумеречной зоной», поскольку нынешние поисковые сервисы уже не в силах
адекватно систематизировать огромные потоки новой визуальной информации. Для
поиска картинок сегодня нужно вводить ключевые слова, причем не всегда содержание
найденных картинок может четко соответствовать этим меткам. Картинка с кроликом
может выводиться по слову «пушистый», либо в других запросах, никак не
связанных с кроликами. Группа под руководством доктора Ли пытается создать
стройную систему помеченных изображений, содержащую самые разные видимые
объекты, от минералов до животных.
Метки в системе ImageNet создаются живыми людьми. В то же
время, эта система служит мощным фундаментом для обучения машин, стремящихся
автоматически распознать объект, не имеющий определенной метки, но близкий к
одному из помеченных изображений по каким-либо признакам. Базу ImageNet
используют многие исследователи. С 2009 года с применением этой базы написано
более 300 научных публикаций. Летом текущего года мы писали о том, как
два штатных ученых из лаборатории Google – Эндрю Нг (Andrew Y. Ng) и Джефф Дин (Jeff
Dean) проверяли свою систему распознавания котов на изображения из ImageNet.
В нынешнем виде система ImageNet обеспечивает вдвое более
высокую производительность по сравнению с более ранними решениями на основе
классических нейронных сетей (программных моделей, имитирующих работу
человеческого мозга). Теперь в работе системы активно используется вклад
добровольцев со всего мира, поскольку объем поступающих данных растет взрывными
темпами. Только социальные сети содержат более 200 млрд фотографий (данные по
Фэйсбук), а каждую минуту пользователи загружают по 72 часа видеозаписей
(данные по Ютьюб). Если бы эти данные обрабатывали только студенты, работающие
с доктором Ли, на анализ и систематизацию ушли бы десятилетия. К счастью,
Интернет в современном виде позволяет организовать многочисленные сообщества
энтузиастов. Доктор Ли обратилась к сервису Mechanical Turk («Механическая индейка»)
компании Amazon, чтобы привлечь людей к небольшим задачам по описанию картинок.
Используя небольшой бюджет, выделенный университетом, команда
разработчиков визуальной базы данных ImageNet быстро стала крупнейшим академическим
пользователем Mechanical Turk. Каждый год авторы ImageNet нанимают от 20 до 30
тысяч человек, которые получают автоматически выбранные картинки и описывают их
за небольшое вознаграждение. В среднем каждый привлеченный «внештатный
сотрудник» идентифицирует 250 картинок за пять минут. В результате собрана не
имеющая аналогов база данных для проведения исследований в области машинного
зрения и распознавания образов.
Конечно, системе ImageNet есть, куда расти. Для
систематизации изображений в ней используется глобальная база данных по словам
английского языка WordNet. Эту базу данных начал собирать Джордж Миллер (George
A. Miller), профессор психологии Принстонского университета, скончавшийся в
июле этого года в возрасте 92 лет. Именно использование слов из системы WordNet
считается одним из факторов, который сдерживает развитие системы ImageNet,
поскольку эти слова зачастую не отображают современные реалии. В частности,
сегодня больше людей интересуется поп-исполнителями и гаджетами, чем редкими
видами травоядных динозавров.
Как бы то ни было, развитие ImageNet продолжается. Одним из
новых исследований стало создание классификатора образов под шуточным названием
«Infallible» («Непогрешимый»), автором которого выступает один из
студентов-дипломников Цзя Ден. Особенность классификатора Infallible является
изменяемый уровень абстракции. Поскольку словарная база WordNet разбита по жестким
категориям, утилита Inafallible может менять уровень абстракции в зависимости от
вероятности попадания образа в ту или иную категорию. Например, если система не
уверена, что на картинке изображен кролик, уровень абстракции повышается до
«млекопитающего» или еще выше, до «животного». Таким образом, на одном из
уровней описание картинки рано или поздно становится точным. Более того,
разработчики планируют еще больше повысить точность описаний картинок,
создаваемых машинами вместе с живыми людьми.
Подробнее о развитии системы ImageNet можно прочитать на
официальной странице проекта по адресу www.image-net.org.
По материалам сайта New York Times.
|