Поиск по сайту Поиск

Нейросеть описывает мир незрячим людям

Голосовые ассистенты могут не только играть в «города» и рассказывать о погоде — они способны на гораздо большее! Например, помогать незрячим людям ориентироваться в современном мире. Для этого используются специальные вопросно-ответные системы Visual Question Answering (VQA). В этой статье мы расскажем, что лишённые зрения люди хотят узнать и как научить нейросеть отвечать на их вопросы.

Поиск ответов на вопросы незрячих людей

Цель систем VQA — дать правильный ответ на вопрос о заданном изображении, взаимодействуя с человеком на естественном языке. Для этой (как и для любой другой) задачи машинного обучения важно собрать достаточное количество данных. 

В последнее время стали набирать популярность искусственные датасеты, создаваемые генеративными сетями. Но для VQA они не подходят: незрячие люди часто могут делать размытые фотографии, закрывать объектив посторонними предметами или снимать при недостаточном освещении. Из-за этого на некоторые задаваемые ими вопросы нельзя найти ответ. Поэтому группа исследователей создала новый набор данных VizWiz, состоящий более чем из 31000 визуальных вопросов от слепых людей, каждый из которых делал снимок с помощью мобильного телефона и записывал устный вопрос о нем. На все вопросы также дано 10 краудсорсинговых ответов.

Примеры фотографий с задаваемыми слепыми людьми вопросами, а также записанными ответами на них. Изображения снизу демонстрируют вопросы, на которые нельзя ответить.

VizWiz создан для разработки более эффективных алгоритмов, которые смогут помочь слепым. Например, решения от современных частных компаний TapTapSee и CamFind уже позволяют делать снимки объекта и узнавать, что это такое и где это можно купить. Социальные сети помогают поддерживать связь с друзьями, предоставляя возможность автоматически отмечать людей на опубликованных фотографиях. Следующий шаг — позволить человеку напрямую задавать естественные вопросы об окружающем мире. 

Как создавался VizWiz

Датасет построен на основе предыдущей работы исследователей, в ходе которой было разработано специальное приложение VizWiz для сбора визуальных вопросов (доступно на смартфонах с iOS и Android). Люди спрашивали о своих повседневных бытовых заботах, делая снимки и записывая голосовые сообщения. Приложение выпущено в мае 2011 года и активно использовалось 11 045 людьми в течение эксперимента. Для разработки набора данных были анонимно выгружены 48 669 визуальных вопросов. 

Основное отличие VizWiz от существующих датасетов — все вопросы задаются незрячими людьми, которые могут не видеть то, о чём спрашивают. Из-за этого в наборе оказалось большое число «вопросов без ответа» (“unanswerable”). Чтобы датасет был эффективным, необходимо проанализировать его и узнать:

  1. Насколько разнообразны задаваемые вопросы, изображения и ответы;
  2. Как часто визуальные вопросы остаются без ответа.

Разнообразие задаваемых вопросов исследовалось с помощью визуализации частоты, с которой вопросы начинаются с разных слов / фраз. Оказалось, что большинство вопросов начинаются со слова «что». На диаграмме ниже можно увидеть общий результат:

Анализ изображений показал, что 28% фотографий помечены как «неподходящие» (“unsuitable image”). Результаты анализа ответов визуализированы с помощью карты наиболее популярных слов, которая исключает варианты “unanswerable” и “unsuitable image”:

Можно увидеть, что самыми распространёнными оказались ответы «да» и «нет».

Без ответа остаётся примерно столько же вопросов, сколько и неподходящих фотографий: 28.63%. Этот вывод подтверждает практическую важность дополнения существующих наборов данных. Более того, VizWiz позволяет автоматически определять, связана ли проблема с плохим качеством фотографии (“unsuitable image”) или с тем, что на ней изображено (“unanswerable”).

Пришло время обучить нейросеть

Не так давно исследователи из Amazon разработали новую нейросеть для задач VQA, анализирующую вопросы с помощью механизма внимания (Question Type-guided Attention, QTA). Обобщённая архитектура показана на рисунке:

Для прогнозирования ответа важно знать тип вопроса независимо от того, соответствует ли ему изображение. Например, на вопросы, начинающиеся со «сколько», обычно даются ответы в виде чисел. Чтобы глубже понять, каким образом различные типы вопросов связаны с фотографиями, авторы попытались соотнести их с помощью механизма внимания (QTA). Для этого они извлекали признаки изображений, используя предварительно обученные нейросети (ResNet, VGG и Faster R-CNN). Затем признаки сопоставлялись с типами вопросов и весами внимания. Типы вопросов определялись с помощью нейросети Word2Vec и энкодера Neural Machine Translation (NMT) от Google. Веса внимания рассчитывались, исходя из соотношения между текстовыми и визуальными признаками.

Очевидное ограничение QTA — чтобы ответить на вопрос, необходимо заранее знать его тип. В процессе реального применения нейросеть не знает, к какому типу относится вопрос. Но можно попытаться спрогнозировать его из текста и использовать в качестве входных данных для сети QTA. Таким образом, авторы разработали многозадачную модель, которая фокусируется как на VQA, так и на прогнозировании типа вопроса. Модель работает в условиях, когда типы вопросов доступны только во время обучения.

Архитектура многозадачной модели

Эксперименты

Набор данных

Учёные из Amazon проводили эксперименты на наборе данных TDIUC (Task Directed Image Understanding Challenge). Он содержит более 1.6 миллиона визуальных вопросов 12 различных типов и включает в себя датасеты VQA v1, Visual Genome, а также дополнение из некачественных фотографий и вопросов без ответа. Точность модели рассчитывались отдельно для каждого типа вопроса.

Модели

Для сравнения результатов использовались две модели QTA: MLP (CATL-QTA) и MCB (MCB-QTA). Первая относится к классу многослойных перцептронов (multilayer perceptron), а вторая использует концепцию Multimodal Compact Bilinear Pooling

Чтобы проверить, улучшает ли механизм внимания работу нейросети, авторы дополнительно обучили две архитектуры, которые анализируют только тип вопроса без весов внимания. Первая, CAT-QT, использует для этих целей Word2Vec, а вторая, CATL-QT, применяет механизм долгой краткосрочной памяти (Long short-term memory, LSTM). 

И, наконец, многозадачная модель для определения метки типа вопроса, о которой упоминалось выше — CATL-QTA-M, основанная на CATL-QTA и применяющая обратное распространение.

Результаты

На рисунке ниже можно увидеть, что механизм внимания действительно повышает точность модели. С использованием одинаковых текстовых и визуальных признаков и примерно такого же числа параметров эффективность сети QTA оказалась на 3-5% выше, чем QT:

Наилучшие результаты были достигнуты у архитектуры, использующей объединение взвешенных признаков изображения с выходными признаками LSTM и Word2Vec (CATL-QTAw). Её точность увеличилась на 5% по сравнению с такими сетями как RAU и MCBA:

Многозадачная модель CATL-QTA-M смогла достичь 84.33% точности, что оказалось ниже, чем у CATL-QTAw. В таблице можно увидеть сравнение результатов (Символ «*» означает обучение и тестирование на наборе данных, не содержащем вопросы без ответа и неподходящие изображения):

При этом распознавание типа вопроса в среднем достигает около 95% точности для 12 типов: 

1. Другие признаки 

2. Настроение

3. Спорт

4. Местоположение

5. Возможности/свойства объекта

6. Вид активности

7. Классификация сцены

8. Цвет

9. Объект

10. Наличие объекта

11. Подсчёт объектов

12. Вопросы без ответа

Подборка выпусков подкаста «640 килобайт» для IT-специалистов

Удивительно, но в эпоху стримов, тиктоков и виртуальной реальности, подкасты переживают вторую волну популярности. Все потому, что у аудиоконтента есть...
Read More

Близнецы или двойняшки: что такое тайпо-домены

В прошлом месяце мы обещали подготовить статью про тайпо-домены. Сказано — сделано. Сегодня разберемся, что это такое и зачем регистрировать...
Read More

Необычная среда разработки Jupyter Notebook

Если вы хотите писать на Python или работать с Data Science, обратите внимание на интерактивную среду разработки с «живым» кодом...
Read More

Как определить фишинг и не попасться на крючок

Праздник к нам приходит, а вместе с ним и два месяца распродаж: 11.11 и «черные» дни недели. К сожалению, также...
Read More

Публичное, частное или гибридное: рассказываем, какое облако лучше подойдет вашему бизнесу

Причина популярности облачных технологий в бизнесе — не только безопасность данных и сокращение time-to-market (времени вывода на рынок). Облака позволяют...
Read More

Осенний рецепт для создания крутого сайта

Ноябрь — прекрасное время не только для тыквенных пирогов и облепихового чая, но и для запуска сайтов. Пока ваши клиенты...
Read More

Что такое Python-хостинг и какой тип услуги выбрать

В статье мы расскажем о том, что такое Python и как выбрать хостинг для проектов на этом языке. (далее…)
Read More

Элиза, Пэри и Алиса: история и эволюция чат-ботов

За последнее десятилетие чат-боты незаметно влились в нашу жизнь и стали ее неотъемлемой частью. Siri поможет найти ответ на любой...
Read More

Страшные истории о доменах, от которых кровь стынет в жилах

Скоро Хэллоуин, и мы не смогли остаться в стороне от этого жуткого праздника. Ведь этот день идеально подходит для того,...
Read More

Запускаем двигатель SEO-продвижения: новые инструменты и возможности

Ссылочное продвижение — линкбилдинг — эффективный и популярный метод вывода сайтов в топ поисковой выдачи Яндекс и Google. Оно позволяет...
Read More