Поиск по сайту Поиск

Голосовой помощник Apple, которому можно доверять

Мы гораздо больше доверяем тем людям, общаться с которыми нам легко и приятно. Обычно так происходит, когда их стиль и манера разговора похожи на наши собственные. Этот факт послужил для Apple толчком к созданию голосового ассистента, который учитывает предпочтительный образ общения пользователя и тем самым вызывает доверие. Сегодня мы расскажем, что получилось из этого эксперимента.

Цифровые ассистенты становятся всё более продвинутыми и используются в разных сферах жизни. Но, согласитесь, в некоторых случаях нам важен не просто сам факт наличия помощника, а степень доверия к нему и его способностям. Например, больному человеку хотелось бы быть уверенным в том, что программа правильно подскажет ему принять нужные лекарства в определённое время.

В человеческих взаимоотношениях люди используют особенные типы поведения для установления взаимопонимания. Один из них — «отражение», когда мы копируем манеру общения партнёра, например, позу, интонации или выражение лица. Это явление также упоминается под названиями мимикрия, социальный резонанс, координация, синхронность, подстройка, эффект хамелеона и так далее. Apple предположили, что эффективный метод повышения доверия к цифровым ассистентам — отражение разговорного стиля запросов, в частности, их степень «болтливости». Чтобы проверить свою гипотезу, они провели исследование среди пользователей и установили, что людям больше нравится общение с более похожим на них помощником.

Почему и зачем

Как сказано выше, люди могут заслужить первоначальное доверие, подражая поведению собеседника. Отражение помогает выявить качественные меры оценки взаимодействия между людьми, а его степень показывает, насколько естественным будет взаимопонимание. Эти характеристики вызывают растущий интерес в областях человеко-компьютерного взаимодействия, робототехнике и машинном обучении. Например, процесс отражения использовался для модели прогнозирования тем разговора, к которым приведёт беседа нескольких людей. Такая система обычно объединяет последовательность действий собеседников и пытается предсказать их высказывания. 

В робототехнике отражение может послужить обучению роботов человеческому языку. Наблюдая за людьми, они научатся копировать их действия и общаться с ними на равных. Этот метод использовался для разработки социальных роботов. Людям с ограниченными возможностями очень важно иметь условия, помогающие реабилитироваться и вливаться в общественную жизнь.

Эксперименты

Авторы описали два опыта: интерактивное обучение пользователей под названием «Волшебник страны Оз» (Wizard-of-Oz, WOZ) и автоматическое прогнозирование предпочтительного стиля разговора с учётом запросов, ответов и отзывов участников. 

Привет, Сири, как дела?

Исследователи из Apple предположили, что взаимодействие с цифровым помощником, который копирует вашу манеру общения, повысит степень доверия к нему. Также они проверили, предпочитают ли болтливые люди взаимодействовать с разговорчивыми собеседниками, а тихони — с такими же, как они, молчунами. Участники заполнили анкету, предназначенную для оценки их уровня «болтливости» и других черт характера (для выявления экстравертов и интровертов). Это позволило выбрать группы пользователей, сбалансированные по определённым особенностям. После этого каждый из участников прошёл опрос об использовании голосовых помощников (частота использования, типы запросов, стиль взаимодействия, надёжность, привлекательность и тому подобное).

Эксперимент проходил в три этапа взаимодействия:

  1. с разговорчивым ассистентом;
  2. с неразговорчивым ассистентом;
  3. с цифровым помощником-отражателем.

Во всех случаях цифровой ассистент контролировался «волшебником» (то есть экспериментатором), которому было дано указание не взаимодействовать с участниками напрямую. Если вы помните сказку «Волшебник страны Оз», примерно так в ней происходило общение чародея с главными героями: он представал перед ними в разных формах, но не показывал себя.

Во время экспериментов авторы записывали аудио и видео с каждым участником. Испытуемые сидели на расстоянии примерно 2.5 метра от настенного экрана. Волшебник находился за разделительной стеной и управлял цифровым помощником и дисплеем, а также синхронизировал оборудование и собирал данные с помощью ROS.

В разговорчивой и неразговорчивой обстановке участникам было предложено (с помощью инструкций на ТВ-экране) сделать устные запросы помощнику для выполнения задач в каждой из следующих областей: таймеры / будильники, календари / напоминания, навигация / маршруты, погода, новости и поиск в интернете. Для каждого запроса на экране всплывала текстовая подсказка, например: «Будильник на 8 утра». Подсказки были намеренно короткими, чтобы ограничить возможность повторять одни и те же фразы. 

Ответы ассистента генерировались для каждого запроса одинаково и не различались между участниками. Например, в подсказке написано: «Время следующей встречи». Тогда развёрнутый ответ будет: «Похоже, следующая встреча у вас после обеда в 2 часа дня», а короткий: «В 2 часа дня».  Выслушав ответ, участники должны были устно оценить его качество: хороший, не по теме, неверная информация, невежливый, небрежный и тому подобное. Все показания фиксировались «волшебником» в текстовом виде.

После погружения в разговорчивую и неразговорчивую обстановку участники ответили на вопросы о том, какая им больше пришлась по душе. Затем они приступили к взаимодействию с помощником-отражателем.

Поведение отражателя было разработано таким образом, чтобы выглядеть максимально естественно в рамках WOZ. Тот же «волшебник», что и в предыдущих опытах, снова незримо контролирует процесс. Обратите внимание, что в первых двух экспериментах ему не надо было оценивать степень развёрнутости ответа, поскольку она была задана по умолчанию в зависимости от обстановки. Здесь же его роль заключается как раз в том, чтобы дать оценку «разговорчивости» помощника для каждого его высказывания.

Каков вопрос — таков ответ

Чтобы сформировать естественный разговор, участников попросили разыграть сценарий «вечернего отдыха», который включал встречу с друзьями, поход в театр и ужин. «Волшебник» двигал сюжет, побуждая пользователей делать запросы с помощью изображений (примеры на рисунке ниже), текстовые подсказки при этом не использовались.

Изображения отсылали к воображаемым вечерним событиям, а значки указывали, какую из функций помощника участник должен использовать (например, над картинкой с одеждой был значок погоды). Набор возможных ответов для каждой подсказки был фиксирован, а уровень разговорчивости выбирался волшебником. Вот примеры ответов для запроса о погоде в порядке увеличения «болтливости»:

  1. 23, ясно.
  2. Будет 23 градуса, ясно.
  3. Будет тепло, 23 градуса и солнечное небо.
  4. Должно быть 23 градуса и ясно, так что можете не брать с собой свитер.
  5. Мои источники сообщают, что будет 23 градуса и ясно. Вам определённо не нужно брать с собой куртку.

Так же, как в разговорчивой и неразговорчивой обстановке, участники оценивали каждый ответ ассистента. После завершения испытания они снова отвечали на вопросы о его привлекательности и надёжности.

Результаты

Всего в исследовании приняли участие 20 человек (3 женщины и 17 мужчин), продолжительность сеанса варьировалась от 17 до 56 минут. Большинство людей (70%) сделали выбор в пользу общительного помощника. Согласно предварительным опросам, 60% участников были довольно болтливы, а 40% не отличались общительностью. Это говорит о том, что стиль общения не всегда указывает на то, что собеседник должен полностью ему соответствовать. Но в целом, участники-экстраверты предпочитали разговорчивого помощника, а интроверты — немногословного.

Влияние отражения на мнение о привлекательности ассистента было проверено с помощью одностороннего дисперсионного анализа. Авторы сравнили рейтинги доверия участников до исследования (среднее = 4.0, стандартное отклонение = 0.48) и после (среднее = 4.46, стандартное отклонение = 0.31). Пользователей попросили оценить, насколько они согласны с утверждением, что им нравится или не нравится взаимодействовать с ассистентом по семибалльной шкале Ликерта (1 — совсем не нравится, 4 — нейтрально, 7 — очень нравится). Разница между средними показателями до и после взаимодействия оказалась статистически значительной (f-мера = 7.12, p ≤ 0.01). Это означает, что отражение оказывает положительное влияние на доверие. 

После исследования участники делились комментариями и отмечали, что им больше понравился помощник-отражатель. В связи с этим авторы приступили к созданию классификаторов, чтобы определить, можно ли использовать особенности речи пользователя для установки соответствующего уровня разговорчивости.

Классифицируем болтунов и молчунов

Авторы создали два вида классификаторов: speaker-independent (не зависящий от говорящего) и multi-speaker (для множества говорящих). Они должны определить, указывает ли высказывание на болтливость или молчаливость и какой из ответов будет предпочтительнее: развёрнутый или короткий. Классификация «разговорчивый или нет» основывается исключительно на особенностях речи и не анализирует длительность высказывания. Продолжительность фразы далеко не всегда соотносится с тем, как много мы успели сказать.

Метки пользователя «разговорчивый» и «неразговорчивый» были извлечены из результатов опросов, а метки ответа «развёрнутый» и «короткий» получены из оценок участников. Каждому высказыванию присваивалось две метки, где одна указывала на болтливость говорящего, а вторая — на предпочтительный ответ. Из речи извлекалось 95 акустических характеристик: среднее значение, стандартное отклонение, минимум и максимум основной частоты, энергия, первые 12 MFCC (мел-кепстральных коэффициентов) и первые 5 формант.

Десять классификаторов были обучены на задачах бинарной классификации: логистическая регрессия, теорема Байеса, искусственная нейронная сеть, случайный лес с коэффициентом Джини, случайный лес с энтропией, SVM  с различными ядрами. Для всех задач использовались стандартные реализации из scikit-learn. Данные были разделены для обучения и тестирования в соотношении 80/20 (multi-speaker), а также для перекрёстной проверки (speaker-independent). Эффективность оценивалась с помощью F1-меры.

Количественные оценки

Оценки классификации показаны в таблице, которая демонстрирует, что результаты оказались хорошими для обеих задач.

Сверху: перекрёстная проверка, снизу: разбиение 80/20.

Это говорит о том, что можно вполне надёжно определить как степень разговорчивости говорящего, так и его предпочтения в ответных репликах. Эффективность разделения 80/20 указывает на то, что классификаторам не требуется большое число примеров для обучения, а эффективность перекрёстной проверки — что модели можно обобщить на новых говорящих. 

⌘⌘⌘

Исследователи Apple не собираются останавливаться на этом: для будущих голосовых помощников они планируют ввести целые диапазоны разговорчивости. Тогда развёрнутые и забавные ответы цифровых ассистентов смогут не только поднять нам настроение, но и повысить комфорт общения для самых разных людей. 

С оригинальной статьёй можно ознакомиться на сайте arxiv.org.

Что такое ЭДО и почему вам нужно подключить его прямо сейчас  

Что такое ЭДО и почему вам нужно подключить его прямо сейчас 

Ещё каких-то 15 лет назад принтеры, факсы и подобное оборудование были неотъемлемой частью любого крупного или небольшого офиса, но постепенно...
Read More
6 трендовых доменных зон для онлайн-бизнеса

6 трендовых доменных зон для онлайн-бизнеса

Первое знакомство клиента с организацией сегодня чаще всего происходит через всемирную паутину. Чем ярче проект — тем больше шансы выделиться...
Read More
Обучаем виртуального дракона фигурам высшего пилотажа

Обучаем виртуального дракона фигурам высшего пилотажа

В наши дни компьютерная графика присутствует во всех популярных видах визуального контента: от видеороликов YouTube-блогеров до полнометражных фильмов. Но проработка...
Read More
Стэнфордский курс: лекция 9. Архитектуры CNN

Стэнфордский курс: лекция 9. Архитектуры CNN

На прошлом уроке мы узнали о наиболее популярных библиотеках и фреймворках для глубокого обучения, рассмотрели их особенности и области применения....
Read More
GPT-2: нейросеть, которая закончит за вас предложение

GPT-2: нейросеть, которая закончит за вас предложение

Встречали ли вы когда-нибудь собеседника, который после нескольких сказанных вами слов заканчивал за вас предложение? GPT-2 умеет и не такое:...
Read More
Жуткие сайты, которые вызовут у вас мурашки

Жуткие сайты, которые вызовут у вас мурашки

Интернет может не только развлекать вас новыми мемами и видеороликами, но и быть по-настоящему пугающим. В честь Хэллоуина представляем несколько...
Read More
10 ингредиентов надёжной инфраструктуры хостинга REG.RU

10 ингредиентов надёжной инфраструктуры хостинга REG.RU

Привет! На связи редакция блога. И сегодня мы расскажем в деталях об одной из сторон инфраструктуры REG.RU, объясним как работает...
Read More
Голосовой помощник Apple, которому можно доверять

Голосовой помощник Apple, которому можно доверять

Мы гораздо больше доверяем тем людям, общаться с которыми нам легко и приятно. Обычно так происходит, когда их стиль и...
Read More
Как организовать техническую поддержку пользователей

Как организовать техническую поддержку пользователей

Быстрая техподдержка очень важна для клиентов, особенно в критических ситуациях. От скорости и качества решения проблемы зависит лояльность пользователя и...
Read More
Роботы в облаках: совмещение ROS и Jupyter

Роботы в облаках: совмещение ROS и Jupyter

Робототехника — одна из самых популярных и прогрессивно развивающихся отраслей. Ролики Boston Dynamics на YouTube собирают миллионы просмотров. Если вы...
Read More