Поиск по сайту Поиск

Нейросеть описывает мир незрячим людям

Голосовые ассистенты могут не только играть в «города» и рассказывать о погоде — они способны на гораздо большее! Например, помогать незрячим людям ориентироваться в современном мире. Для этого используются специальные вопросно-ответные системы Visual Question Answering (VQA). В этой статье мы расскажем, что лишённые зрения люди хотят узнать и как научить нейросеть отвечать на их вопросы.

Поиск ответов на вопросы незрячих людей

Цель систем VQA — дать правильный ответ на вопрос о заданном изображении, взаимодействуя с человеком на естественном языке. Для этой (как и для любой другой) задачи машинного обучения важно собрать достаточное количество данных. 

В последнее время стали набирать популярность искусственные датасеты, создаваемые генеративными сетями. Но для VQA они не подходят: незрячие люди часто могут делать размытые фотографии, закрывать объектив посторонними предметами или снимать при недостаточном освещении. Из-за этого на некоторые задаваемые ими вопросы нельзя найти ответ. Поэтому группа исследователей создала новый набор данных VizWiz, состоящий более чем из 31000 визуальных вопросов от слепых людей, каждый из которых делал снимок с помощью мобильного телефона и записывал устный вопрос о нем. На все вопросы также дано 10 краудсорсинговых ответов.

Примеры фотографий с задаваемыми слепыми людьми вопросами, а также записанными ответами на них. Изображения снизу демонстрируют вопросы, на которые нельзя ответить.

VizWiz создан для разработки более эффективных алгоритмов, которые смогут помочь слепым. Например, решения от современных частных компаний TapTapSee и CamFind уже позволяют делать снимки объекта и узнавать, что это такое и где это можно купить. Социальные сети помогают поддерживать связь с друзьями, предоставляя возможность автоматически отмечать людей на опубликованных фотографиях. Следующий шаг — позволить человеку напрямую задавать естественные вопросы об окружающем мире. 

Как создавался VizWiz

Датасет построен на основе предыдущей работы исследователей, в ходе которой было разработано специальное приложение VizWiz для сбора визуальных вопросов (доступно на смартфонах с iOS и Android). Люди спрашивали о своих повседневных бытовых заботах, делая снимки и записывая голосовые сообщения. Приложение выпущено в мае 2011 года и активно использовалось 11 045 людьми в течение эксперимента. Для разработки набора данных были анонимно выгружены 48 669 визуальных вопросов. 

Основное отличие VizWiz от существующих датасетов — все вопросы задаются незрячими людьми, которые могут не видеть то, о чём спрашивают. Из-за этого в наборе оказалось большое число «вопросов без ответа» (“unanswerable”). Чтобы датасет был эффективным, необходимо проанализировать его и узнать:

  1. Насколько разнообразны задаваемые вопросы, изображения и ответы;
  2. Как часто визуальные вопросы остаются без ответа.

Разнообразие задаваемых вопросов исследовалось с помощью визуализации частоты, с которой вопросы начинаются с разных слов / фраз. Оказалось, что большинство вопросов начинаются со слова «что». На диаграмме ниже можно увидеть общий результат:

Анализ изображений показал, что 28% фотографий помечены как «неподходящие» (“unsuitable image”). Результаты анализа ответов визуализированы с помощью карты наиболее популярных слов, которая исключает варианты “unanswerable” и “unsuitable image”:

Можно увидеть, что самыми распространёнными оказались ответы «да» и «нет».

Без ответа остаётся примерно столько же вопросов, сколько и неподходящих фотографий: 28.63%. Этот вывод подтверждает практическую важность дополнения существующих наборов данных. Более того, VizWiz позволяет автоматически определять, связана ли проблема с плохим качеством фотографии (“unsuitable image”) или с тем, что на ней изображено (“unanswerable”).

Пришло время обучить нейросеть

Не так давно исследователи из Amazon разработали новую нейросеть для задач VQA, анализирующую вопросы с помощью механизма внимания (Question Type-guided Attention, QTA). Обобщённая архитектура показана на рисунке:

Для прогнозирования ответа важно знать тип вопроса независимо от того, соответствует ли ему изображение. Например, на вопросы, начинающиеся со «сколько», обычно даются ответы в виде чисел. Чтобы глубже понять, каким образом различные типы вопросов связаны с фотографиями, авторы попытались соотнести их с помощью механизма внимания (QTA). Для этого они извлекали признаки изображений, используя предварительно обученные нейросети (ResNet, VGG и Faster R-CNN). Затем признаки сопоставлялись с типами вопросов и весами внимания. Типы вопросов определялись с помощью нейросети Word2Vec и энкодера Neural Machine Translation (NMT) от Google. Веса внимания рассчитывались, исходя из соотношения между текстовыми и визуальными признаками.

Очевидное ограничение QTA — чтобы ответить на вопрос, необходимо заранее знать его тип. В процессе реального применения нейросеть не знает, к какому типу относится вопрос. Но можно попытаться спрогнозировать его из текста и использовать в качестве входных данных для сети QTA. Таким образом, авторы разработали многозадачную модель, которая фокусируется как на VQA, так и на прогнозировании типа вопроса. Модель работает в условиях, когда типы вопросов доступны только во время обучения.

Архитектура многозадачной модели

Эксперименты

Набор данных

Учёные из Amazon проводили эксперименты на наборе данных TDIUC (Task Directed Image Understanding Challenge). Он содержит более 1.6 миллиона визуальных вопросов 12 различных типов и включает в себя датасеты VQA v1, Visual Genome, а также дополнение из некачественных фотографий и вопросов без ответа. Точность модели рассчитывались отдельно для каждого типа вопроса.

Модели

Для сравнения результатов использовались две модели QTA: MLP (CATL-QTA) и MCB (MCB-QTA). Первая относится к классу многослойных перцептронов (multilayer perceptron), а вторая использует концепцию Multimodal Compact Bilinear Pooling

Чтобы проверить, улучшает ли механизм внимания работу нейросети, авторы дополнительно обучили две архитектуры, которые анализируют только тип вопроса без весов внимания. Первая, CAT-QT, использует для этих целей Word2Vec, а вторая, CATL-QT, применяет механизм долгой краткосрочной памяти (Long short-term memory, LSTM). 

И, наконец, многозадачная модель для определения метки типа вопроса, о которой упоминалось выше — CATL-QTA-M, основанная на CATL-QTA и применяющая обратное распространение.

Результаты

На рисунке ниже можно увидеть, что механизм внимания действительно повышает точность модели. С использованием одинаковых текстовых и визуальных признаков и примерно такого же числа параметров эффективность сети QTA оказалась на 3-5% выше, чем QT:

Наилучшие результаты были достигнуты у архитектуры, использующей объединение взвешенных признаков изображения с выходными признаками LSTM и Word2Vec (CATL-QTAw). Её точность увеличилась на 5% по сравнению с такими сетями как RAU и MCBA:

Многозадачная модель CATL-QTA-M смогла достичь 84.33% точности, что оказалось ниже, чем у CATL-QTAw. В таблице можно увидеть сравнение результатов (Символ «*» означает обучение и тестирование на наборе данных, не содержащем вопросы без ответа и неподходящие изображения):

При этом распознавание типа вопроса в среднем достигает около 95% точности для 12 типов: 

1. Другие признаки 

2. Настроение

3. Спорт

4. Местоположение

5. Возможности/свойства объекта

6. Вид активности

7. Классификация сцены

8. Цвет

9. Объект

10. Наличие объекта

11. Подсчёт объектов

12. Вопросы без ответа

DoS vs DDoS-атака: отличия и профилактика

Для хорошей работы любого сайта важно обеспечить надёжное подключение и защитить его от атак и взломов. Ведь хакерские атаки, независимо...
Read More

Сыграем в города? .МОСКВА, .NYC, .PARIS и другие «городские» домены для локального бизнеса

Первое знакомство клиента с компанией часто происходит через интернет. Чем ярче проект — тем больше шансы выделиться среди конкурентов и...
Read More

Как напомнить клиентам о себе через экран смартфона

Любому бизнесу важно не только искать новых клиентов, но и поддерживать связь со старыми — с этой задачей отлично справляется...
Read More

Как создать свой сайт с нуля

Чтобы создать сайт, вам понадобится несколько обязательных элементов: домен, хостинг, SSL-сертификат и программа для создания внешнего вида сайта. Каждый из этих элементов можно...
Read More

Сарафанный маркетинг: как заставить всех о вас говорить

Любой человек, принимая решение о покупке, будет прислушиваться к отзывам знакомых. Также если близкий человек позитивно отзывается о бренде и...
Read More

Там, где живет интернет: 9 ЦОД мира, которые вас удивят

Центр обработки данных (он же дата-центр) — крупномасштабное здание, внутри которого функционируют серверные и сетевое оборудование. Именно в таких зданиях...
Read More

Настройка сети: что такое VPN

Если вы хотите разобраться, что такое VPN — читайте нашу статью. В ней мы простыми словами рассказали, что значит Virtual Private Network, зачем подключаться...
Read More

Проще и быстрее: что такое безбумажные операции с доменами и как их подключить

Передача домена другому администратору или смена регистратора в .RU или .РФ  — процедура, которая подчинена определённым правилам и стандартам и...
Read More

Как настроить Ubuntu Wine

Несмотря на то, что для ОС Linux регулярно выпускаются новые программы, всегда найдётся какое-нибудь приложение, которого не хватает для работы...
Read More

Что такое ИТ-инфраструктура

В общем смысле ИТ-инфраструктура — это комплекс взаимосвязанных компонентов, с помощью которого можно организовать информационную среду и управлять ей. (далее…)
Read More