Поиск по сайту Поиск

Голосовой помощник Apple, которому можно доверять

Мы гораздо больше доверяем тем людям, общаться с которыми нам легко и приятно. Обычно так происходит, когда их стиль и манера разговора похожи на наши собственные. Этот факт послужил для Apple толчком к созданию голосового ассистента, который учитывает предпочтительный образ общения пользователя и тем самым вызывает доверие. Сегодня мы расскажем, что получилось из этого эксперимента.

Цифровые ассистенты становятся всё более продвинутыми и используются в разных сферах жизни. Но, согласитесь, в некоторых случаях нам важен не просто сам факт наличия помощника, а степень доверия к нему и его способностям. Например, больному человеку хотелось бы быть уверенным в том, что программа правильно подскажет ему принять нужные лекарства в определённое время.

В человеческих взаимоотношениях люди используют особенные типы поведения для установления взаимопонимания. Один из них — «отражение», когда мы копируем манеру общения партнёра, например, позу, интонации или выражение лица. Это явление также упоминается под названиями мимикрия, социальный резонанс, координация, синхронность, подстройка, эффект хамелеона и так далее. Apple предположили, что эффективный метод повышения доверия к цифровым ассистентам — отражение разговорного стиля запросов, в частности, их степень «болтливости». Чтобы проверить свою гипотезу, они провели исследование среди пользователей и установили, что людям больше нравится общение с более похожим на них помощником.

Почему и зачем

Как сказано выше, люди могут заслужить первоначальное доверие, подражая поведению собеседника. Отражение помогает выявить качественные меры оценки взаимодействия между людьми, а его степень показывает, насколько естественным будет взаимопонимание. Эти характеристики вызывают растущий интерес в областях человеко-компьютерного взаимодействия, робототехнике и машинном обучении. Например, процесс отражения использовался для модели прогнозирования тем разговора, к которым приведёт беседа нескольких людей. Такая система обычно объединяет последовательность действий собеседников и пытается предсказать их высказывания. 

В робототехнике отражение может послужить обучению роботов человеческому языку. Наблюдая за людьми, они научатся копировать их действия и общаться с ними на равных. Этот метод использовался для разработки социальных роботов. Людям с ограниченными возможностями очень важно иметь условия, помогающие реабилитироваться и вливаться в общественную жизнь.

Эксперименты

Авторы описали два опыта: интерактивное обучение пользователей под названием «Волшебник страны Оз» (Wizard-of-Oz, WOZ) и автоматическое прогнозирование предпочтительного стиля разговора с учётом запросов, ответов и отзывов участников. 

Привет, Сири, как дела?

Исследователи из Apple предположили, что взаимодействие с цифровым помощником, который копирует вашу манеру общения, повысит степень доверия к нему. Также они проверили, предпочитают ли болтливые люди взаимодействовать с разговорчивыми собеседниками, а тихони — с такими же, как они, молчунами. Участники заполнили анкету, предназначенную для оценки их уровня «болтливости» и других черт характера (для выявления экстравертов и интровертов). Это позволило выбрать группы пользователей, сбалансированные по определённым особенностям. После этого каждый из участников прошёл опрос об использовании голосовых помощников (частота использования, типы запросов, стиль взаимодействия, надёжность, привлекательность и тому подобное).

Эксперимент проходил в три этапа взаимодействия:

  1. с разговорчивым ассистентом;
  2. с неразговорчивым ассистентом;
  3. с цифровым помощником-отражателем.

Во всех случаях цифровой ассистент контролировался «волшебником» (то есть экспериментатором), которому было дано указание не взаимодействовать с участниками напрямую. Если вы помните сказку «Волшебник страны Оз», примерно так в ней происходило общение чародея с главными героями: он представал перед ними в разных формах, но не показывал себя.

Во время экспериментов авторы записывали аудио и видео с каждым участником. Испытуемые сидели на расстоянии примерно 2.5 метра от настенного экрана. Волшебник находился за разделительной стеной и управлял цифровым помощником и дисплеем, а также синхронизировал оборудование и собирал данные с помощью ROS.

В разговорчивой и неразговорчивой обстановке участникам было предложено (с помощью инструкций на ТВ-экране) сделать устные запросы помощнику для выполнения задач в каждой из следующих областей: таймеры / будильники, календари / напоминания, навигация / маршруты, погода, новости и поиск в интернете. Для каждого запроса на экране всплывала текстовая подсказка, например: «Будильник на 8 утра». Подсказки были намеренно короткими, чтобы ограничить возможность повторять одни и те же фразы. 

Ответы ассистента генерировались для каждого запроса одинаково и не различались между участниками. Например, в подсказке написано: «Время следующей встречи». Тогда развёрнутый ответ будет: «Похоже, следующая встреча у вас после обеда в 2 часа дня», а короткий: «В 2 часа дня».  Выслушав ответ, участники должны были устно оценить его качество: хороший, не по теме, неверная информация, невежливый, небрежный и тому подобное. Все показания фиксировались «волшебником» в текстовом виде.

После погружения в разговорчивую и неразговорчивую обстановку участники ответили на вопросы о том, какая им больше пришлась по душе. Затем они приступили к взаимодействию с помощником-отражателем.

Поведение отражателя было разработано таким образом, чтобы выглядеть максимально естественно в рамках WOZ. Тот же «волшебник», что и в предыдущих опытах, снова незримо контролирует процесс. Обратите внимание, что в первых двух экспериментах ему не надо было оценивать степень развёрнутости ответа, поскольку она была задана по умолчанию в зависимости от обстановки. Здесь же его роль заключается как раз в том, чтобы дать оценку «разговорчивости» помощника для каждого его высказывания.

Каков вопрос — таков ответ

Чтобы сформировать естественный разговор, участников попросили разыграть сценарий «вечернего отдыха», который включал встречу с друзьями, поход в театр и ужин. «Волшебник» двигал сюжет, побуждая пользователей делать запросы с помощью изображений (примеры на рисунке ниже), текстовые подсказки при этом не использовались.

Изображения отсылали к воображаемым вечерним событиям, а значки указывали, какую из функций помощника участник должен использовать (например, над картинкой с одеждой был значок погоды). Набор возможных ответов для каждой подсказки был фиксирован, а уровень разговорчивости выбирался волшебником. Вот примеры ответов для запроса о погоде в порядке увеличения «болтливости»:

  1. 23, ясно.
  2. Будет 23 градуса, ясно.
  3. Будет тепло, 23 градуса и солнечное небо.
  4. Должно быть 23 градуса и ясно, так что можете не брать с собой свитер.
  5. Мои источники сообщают, что будет 23 градуса и ясно. Вам определённо не нужно брать с собой куртку.

Так же, как в разговорчивой и неразговорчивой обстановке, участники оценивали каждый ответ ассистента. После завершения испытания они снова отвечали на вопросы о его привлекательности и надёжности.

Результаты

Всего в исследовании приняли участие 20 человек (3 женщины и 17 мужчин), продолжительность сеанса варьировалась от 17 до 56 минут. Большинство людей (70%) сделали выбор в пользу общительного помощника. Согласно предварительным опросам, 60% участников были довольно болтливы, а 40% не отличались общительностью. Это говорит о том, что стиль общения не всегда указывает на то, что собеседник должен полностью ему соответствовать. Но в целом, участники-экстраверты предпочитали разговорчивого помощника, а интроверты — немногословного.

Влияние отражения на мнение о привлекательности ассистента было проверено с помощью одностороннего дисперсионного анализа. Авторы сравнили рейтинги доверия участников до исследования (среднее = 4.0, стандартное отклонение = 0.48) и после (среднее = 4.46, стандартное отклонение = 0.31). Пользователей попросили оценить, насколько они согласны с утверждением, что им нравится или не нравится взаимодействовать с ассистентом по семибалльной шкале Ликерта (1 — совсем не нравится, 4 — нейтрально, 7 — очень нравится). Разница между средними показателями до и после взаимодействия оказалась статистически значительной (f-мера = 7.12, p ≤ 0.01). Это означает, что отражение оказывает положительное влияние на доверие. 

После исследования участники делились комментариями и отмечали, что им больше понравился помощник-отражатель. В связи с этим авторы приступили к созданию классификаторов, чтобы определить, можно ли использовать особенности речи пользователя для установки соответствующего уровня разговорчивости.

Классифицируем болтунов и молчунов

Авторы создали два вида классификаторов: speaker-independent (не зависящий от говорящего) и multi-speaker (для множества говорящих). Они должны определить, указывает ли высказывание на болтливость или молчаливость и какой из ответов будет предпочтительнее: развёрнутый или короткий. Классификация «разговорчивый или нет» основывается исключительно на особенностях речи и не анализирует длительность высказывания. Продолжительность фразы далеко не всегда соотносится с тем, как много мы успели сказать.

Метки пользователя «разговорчивый» и «неразговорчивый» были извлечены из результатов опросов, а метки ответа «развёрнутый» и «короткий» получены из оценок участников. Каждому высказыванию присваивалось две метки, где одна указывала на болтливость говорящего, а вторая — на предпочтительный ответ. Из речи извлекалось 95 акустических характеристик: среднее значение, стандартное отклонение, минимум и максимум основной частоты, энергия, первые 12 MFCC (мел-кепстральных коэффициентов) и первые 5 формант.

Десять классификаторов были обучены на задачах бинарной классификации: логистическая регрессия, теорема Байеса, искусственная нейронная сеть, случайный лес с коэффициентом Джини, случайный лес с энтропией, SVM  с различными ядрами. Для всех задач использовались стандартные реализации из scikit-learn. Данные были разделены для обучения и тестирования в соотношении 80/20 (multi-speaker), а также для перекрёстной проверки (speaker-independent). Эффективность оценивалась с помощью F1-меры.

Количественные оценки

Оценки классификации показаны в таблице, которая демонстрирует, что результаты оказались хорошими для обеих задач.

Сверху: перекрёстная проверка, снизу: разбиение 80/20.

Это говорит о том, что можно вполне надёжно определить как степень разговорчивости говорящего, так и его предпочтения в ответных репликах. Эффективность разделения 80/20 указывает на то, что классификаторам не требуется большое число примеров для обучения, а эффективность перекрёстной проверки — что модели можно обобщить на новых говорящих. 

⌘⌘⌘

Исследователи Apple не собираются останавливаться на этом: для будущих голосовых помощников они планируют ввести целые диапазоны разговорчивости. Тогда развёрнутые и забавные ответы цифровых ассистентов смогут не только поднять нам настроение, но и повысить комфорт общения для самых разных людей. 

С оригинальной статьёй можно ознакомиться на сайте arxiv.org.

CTR позиций в поисковой выдаче или Когда клики действительно помогают

CTR позиций в поисковой выдаче или Когда клики действительно помогают

Мечта каждого вебмастера — вывести сайт на первые строки в поисковиках, чтобы привлекать как можно больше трафика. Сегодня вместе с...
Read More
Что такое NVMe SSD и стоит ли выбирать его для своего веб‑проекта?

Что такое NVMe SSD и стоит ли выбирать его для своего веб‑проекта?

При выборе выделенного сервера надо учитывать много параметров: подобрать процессор, понять, сколько хватит оперативки и какой нужен тип накопителя. Если...
Read More
Domains weekly: топ стран на рынке SSL, ICANN против расизма и 50 000 доменов в дропе

Domains weekly: топ стран на рынке SSL, ICANN против расизма и 50 000 доменов в дропе

Новый еженедельный дайджест поведает о том, в каких странах больше всего используют SSL-сертификаты (спойлер: Россия там тоже есть), как ICANN...
Read More
7 лучших SEO‑плагинов для WordPress

7 лучших SEO‑плагинов для WordPress

Чтобы привлечь посетителей на сайт, без SEO-продвижения не обойтись. И это — не разовая история, а постоянный и кропотливый процесс....
Read More
404, Bad Gateway или О чём говорят популярные ошибки на сайтах

404, Bad Gateway или О чём говорят популярные ошибки на сайтах

Наверняка вы сталкивались с ситуацией, когда при попытке зайти на сайт вместо нужной страницы он выдавал то ошибку 404, то...
Read More
Domains weekly: доход от .ORG, соцсеть на VOICE.COM и персональный рейтинг доменов

Domains weekly: доход от .ORG, соцсеть на VOICE.COM и персональный рейтинг доменов

Из новой подборки вы узнаете, что за соцсеть заработает на самом дорогом домене, как будут персонализироваться подборки доменных имён для...
Read More
Как подобрать домен: возможности REG.RU

Как подобрать домен: возможности REG.RU

В зоне .RU почти 5 миллионов доменов. Несмотря на то, что многие звучные и запоминающиеся имена уже заняты, есть несколько...
Read More
Domains weekly: взлёт .BLACK, сокрытие URL от Google и защита от доменов‑омонимов

Domains weekly: взлёт .BLACK, сокрытие URL от Google и защита от доменов‑омонимов

В очередном дайджесте мы расскажем о росте зоны .BLACK (о причинах догадаться нетрудно), зачем Google убирает полные URL из адресной...
Read More
Коммерческие факторы ранжирования: что это такое

Коммерческие факторы ранжирования: что это такое

Бывает, зайдёшь в интернет-магазин, выберешь понравившийся товар, но вдруг — цена меняется сама по себе, кнопка «Добавить в корзину» спрятана...
Read More
Как начать зарабатывать на своём сайте — 7 беспроигрышных идей

Как начать зарабатывать на своём сайте — 7 беспроигрышных идей

Чтобы заставить блог или личный веб-сайт приносить регулярный доход, потребуется щепотка удачи, стабильный трафик и, конечно же, определённое количество ваших...
Read More