Поиск по сайту Поиск

Нейросеть описывает мир незрячим людям

Голосовые ассистенты могут не только играть в «города» и рассказывать о погоде — они способны на гораздо большее! Например, помогать незрячим людям ориентироваться в современном мире. Для этого используются специальные вопросно-ответные системы Visual Question Answering (VQA). В этой статье мы расскажем, что лишённые зрения люди хотят узнать и как научить нейросеть отвечать на их вопросы.

Поиск ответов на вопросы незрячих людей

Цель систем VQA — дать правильный ответ на вопрос о заданном изображении, взаимодействуя с человеком на естественном языке. Для этой (как и для любой другой) задачи машинного обучения важно собрать достаточное количество данных. 

В последнее время стали набирать популярность искусственные датасеты, создаваемые генеративными сетями. Но для VQA они не подходят: незрячие люди часто могут делать размытые фотографии, закрывать объектив посторонними предметами или снимать при недостаточном освещении. Из-за этого на некоторые задаваемые ими вопросы нельзя найти ответ. Поэтому группа исследователей создала новый набор данных VizWiz, состоящий более чем из 31000 визуальных вопросов от слепых людей, каждый из которых делал снимок с помощью мобильного телефона и записывал устный вопрос о нем. На все вопросы также дано 10 краудсорсинговых ответов.


Примеры фотографий с задаваемыми слепыми людьми вопросами, а также записанными ответами на них. Изображения снизу демонстрируют вопросы, на которые нельзя ответить.

VizWiz создан для разработки более эффективных алгоритмов, которые смогут помочь слепым. Например, решения от современных частных компаний TapTapSee и CamFind уже позволяют делать снимки объекта и узнавать, что это такое и где это можно купить. Социальные сети помогают поддерживать связь с друзьями, предоставляя возможность автоматически отмечать людей на опубликованных фотографиях. Следующий шаг — позволить человеку напрямую задавать естественные вопросы об окружающем мире. 

Как создавался VizWiz

Датасет построен на основе предыдущей работы исследователей, в ходе которой было разработано специальное приложение VizWiz для сбора визуальных вопросов (доступно на смартфонах с iOS и Android). Люди спрашивали о своих повседневных бытовых заботах, делая снимки и записывая голосовые сообщения. Приложение выпущено в мае 2011 года и активно использовалось 11 045 людьми в течение эксперимента. Для разработки набора данных были анонимно выгружены 48 669 визуальных вопросов. 

Основное отличие VizWiz от существующих датасетов — все вопросы задаются незрячими людьми, которые могут не видеть то, о чём спрашивают. Из-за этого в наборе оказалось большое число «вопросов без ответа» (“unanswerable”). Чтобы датасет был эффективным, необходимо проанализировать его и узнать:

  1. Насколько разнообразны задаваемые вопросы, изображения и ответы;
  2. Как часто визуальные вопросы остаются без ответа.

Разнообразие задаваемых вопросов исследовалось с помощью визуализации частоты, с которой вопросы начинаются с разных слов / фраз. Оказалось, что большинство вопросов начинаются со слова «что». На диаграмме ниже можно увидеть общий результат:

Анализ изображений показал, что 28% фотографий помечены как «неподходящие» (“unsuitable image”). Результаты анализа ответов визуализированы с помощью карты наиболее популярных слов, которая исключает варианты “unanswerable” и “unsuitable image”:

Можно увидеть, что самыми распространёнными оказались ответы «да» и «нет».

Без ответа остаётся примерно столько же вопросов, сколько и неподходящих фотографий: 28.63%. Этот вывод подтверждает практическую важность дополнения существующих наборов данных. Более того, VizWiz позволяет автоматически определять, связана ли проблема с плохим качеством фотографии (“unsuitable image”) или с тем, что на ней изображено (“unanswerable”).

Пришло время обучить нейросеть

Не так давно исследователи из Amazon разработали новую нейросеть для задач VQA, анализирующую вопросы с помощью механизма внимания (Question Type-guided Attention, QTA). Обобщённая архитектура показана на рисунке:

Для прогнозирования ответа важно знать тип вопроса независимо от того, соответствует ли ему изображение. Например, на вопросы, начинающиеся со «сколько», обычно даются ответы в виде чисел. Чтобы глубже понять, каким образом различные типы вопросов связаны с фотографиями, авторы попытались соотнести их с помощью механизма внимания (QTA). Для этого они извлекали признаки изображений, используя предварительно обученные нейросети (ResNet, VGG и Faster R-CNN). Затем признаки сопоставлялись с типами вопросов и весами внимания. Типы вопросов определялись с помощью нейросети Word2Vec и энкодера Neural Machine Translation (NMT) от Google. Веса внимания рассчитывались, исходя из соотношения между текстовыми и визуальными признаками.

Очевидное ограничение QTA — чтобы ответить на вопрос, необходимо заранее знать его тип. В процессе реального применения нейросеть не знает, к какому типу относится вопрос. Но можно попытаться спрогнозировать его из текста и использовать в качестве входных данных для сети QTA. Таким образом, авторы разработали многозадачную модель, которая фокусируется как на VQA, так и на прогнозировании типа вопроса. Модель работает в условиях, когда типы вопросов доступны только во время обучения.


Архитектура многозадачной модели

Эксперименты

Набор данных

Учёные из Amazon проводили эксперименты на наборе данных TDIUC (Task Directed Image Understanding Challenge). Он содержит более 1.6 миллиона визуальных вопросов 12 различных типов и включает в себя датасеты VQA v1, Visual Genome, а также дополнение из некачественных фотографий и вопросов без ответа. Точность модели рассчитывались отдельно для каждого типа вопроса.

Модели

Для сравнения результатов использовались две модели QTA: MLP (CATL-QTA) и MCB (MCB-QTA). Первая относится к классу многослойных перцептронов (multilayer perceptron), а вторая использует концепцию Multimodal Compact Bilinear Pooling

Чтобы проверить, улучшает ли механизм внимания работу нейросети, авторы дополнительно обучили две архитектуры, которые анализируют только тип вопроса без весов внимания. Первая, CAT-QT, использует для этих целей Word2Vec, а вторая, CATL-QT, применяет механизм долгой краткосрочной памяти (Long short-term memory, LSTM). 

И, наконец, многозадачная модель для определения метки типа вопроса, о которой упоминалось выше — CATL-QTA-M, основанная на CATL-QTA и применяющая обратное распространение.

Результаты

На рисунке ниже можно увидеть, что механизм внимания действительно повышает точность модели. С использованием одинаковых текстовых и визуальных признаков и примерно такого же числа параметров эффективность сети QTA оказалась на 3-5% выше, чем QT:

Наилучшие результаты были достигнуты у архитектуры, использующей объединение взвешенных признаков изображения с выходными признаками LSTM и Word2Vec (CATL-QTAw). Её точность увеличилась на 5% по сравнению с такими сетями как RAU и MCBA:

Многозадачная модель CATL-QTA-M смогла достичь 84.33% точности, что оказалось ниже, чем у CATL-QTAw. В таблице можно увидеть сравнение результатов (Символ «*» означает обучение и тестирование на наборе данных, не содержащем вопросы без ответа и неподходящие изображения):

При этом распознавание типа вопроса в среднем достигает около 95% точности для 12 типов: 

  1. Другие признаки 
  2. Настроение
  3. Спорт
  4. Местоположение
  5. Возможности/свойства объекта
  6. Вид активности
  7. Классификация сцены
  8. Цвет
  9. Объект
  10. Наличие объекта
  11. Подсчёт объектов
  12. Вопросы без ответа

Заключение

Пример с датасетом VizWiz доказал, что сбор и анализ данных для создания VQA-систем требуют долгой и кропотливой работы. Исследователи из Amazon смогли применить нестандартные подходы при разработке нейросетей, отвечающих на вопросы незрячих людей, и показать их эффективность и актуальность. Надеемся, что на этом работа учёных не закончится и скоро появится больше решений, которые помогут лишённым зрения людям по-новому увидеть мир.

Как бороться со спамом в электронной почте: 5 проверенных методов

Как бороться со спамом в электронной почте: 5 проверенных методов

Полностью искоренить спам, пожалуй, невозможно — разве что вы перестанете пользоваться Интернетом. Спам-фильтры в почтовых клиентах хоть и спасают от...
Read More
Domains weekly: учёт UX в ранжировании Google, дефисы в доменах и обратный захват SIEMPLIFY.COM

Domains weekly: учёт UX в ранжировании Google, дефисы в доменах и обратный захват SIEMPLIFY.COM

Читайте в новой подборке: как Google улучшает свою систему ранжирования сайтов, насколько ценятся домены с дефисами, почему зона .ICU нарастила...
Read More
10 лучших IDE и редакторов кода для веб‑разработчиков

10 лучших IDE и редакторов кода для веб‑разработчиков

Писать код при желании можно и в текстовом редакторе — ничто не мешает вам создать простейший сайт в «Блокноте», сохранив...
Read More
Domains weekly: .РФ на страже русского языка, рост new gTLDs и пассивный доход от PORNO.COM

Domains weekly: .РФ на страже русского языка, рост new gTLDs и пассивный доход от PORNO.COM

В новой подборке новостей мы расскажем, как развивался русский язык вместе с зоной .РФ, что за риски таит в себе...
Read More
VPS нового поколения, ИИ, юникодные домены и мини‑сериал об админах: всё, что вы знали и чего могли не знать о REG.RU

VPS нового поколения, ИИ, юникодные домены и мини‑сериал об админах: всё, что вы знали и чего могли не знать о REG.RU

Ура-ура! 22 мая нам исполнилось 14 лет, и мы по-прежнему двигаемся только вперёд и становимся лучше. Мы решили поделиться с...
Read More
Domains weekly: старт .MEET от Google, годовой рост .RU и .РФ, вирусная реклама рэп‑альбома с new gTLDs

Domains weekly: старт .MEET от Google, годовой рост .RU и .РФ, вирусная реклама рэп‑альбома с new gTLDs

В новой еженедельной подборке новостей расскажем о старте регистраций в зоне  .MEET от Google, вирусной рекламной кампании нового рэп-альбома Future...
Read More
Как скорость загрузки страниц на мобильных устройствах влияет на посещаемость сайта

Как скорость загрузки страниц на мобильных устройствах влияет на посещаемость сайта

Поисковые системы уделяют большое внимание скорости загрузки сайтов с мобильных устройств, и этот фактор ранжирования становится всё более важным. В...
Read More
Популярные уязвимости сайтов: чем опасны и как их избежать

Популярные уязвимости сайтов: чем опасны и как их избежать

Для любого, кто управляет веб-сайтом, на первом месте должен стоять вопрос безопасности. Критические угрозы и уязвимости могут сильно ударить как...
Read More
Domains weekly: 10 лет .РФ, новый топ регистраторов в .COM и спор за ягодный домен

Domains weekly: 10 лет .РФ, новый топ регистраторов в .COM и спор за ягодный домен

В свежей подборке новостей расскажем о юбилее .РФ, отчёте ICANN о динамике регистраций в зоне .COM и неудачной попытке канадской...
Read More
С днём рождения, .РФ!

С днём рождения, .РФ!

В этом году кириллической национальной российской доменной зоне исполняется 10 лет. Мы решили вспомнить, как всё начиналось: в этом материале...
Read More