Поиск по сайту Поиск

Голосовой помощник Apple, которому можно доверять

Мы гораздо больше доверяем тем людям, общаться с которыми нам легко и приятно. Обычно так происходит, когда их стиль и манера разговора похожи на наши собственные. Этот факт послужил для Apple толчком к созданию голосового ассистента, который учитывает предпочтительный образ общения пользователя и тем самым вызывает доверие. Сегодня мы расскажем, что получилось из этого эксперимента.

Цифровые ассистенты становятся всё более продвинутыми и используются в разных сферах жизни. Но, согласитесь, в некоторых случаях нам важен не просто сам факт наличия помощника, а степень доверия к нему и его способностям. Например, больному человеку хотелось бы быть уверенным в том, что программа правильно подскажет ему принять нужные лекарства в определённое время.

В человеческих взаимоотношениях люди используют особенные типы поведения для установления взаимопонимания. Один из них — «отражение», когда мы копируем манеру общения партнёра, например, позу, интонации или выражение лица. Это явление также упоминается под названиями мимикрия, социальный резонанс, координация, синхронность, подстройка, эффект хамелеона и так далее. Apple предположили, что эффективный метод повышения доверия к цифровым ассистентам — отражение разговорного стиля запросов, в частности, их степень «болтливости». Чтобы проверить свою гипотезу, они провели исследование среди пользователей и установили, что людям больше нравится общение с более похожим на них помощником.

Почему и зачем

Как сказано выше, люди могут заслужить первоначальное доверие, подражая поведению собеседника. Отражение помогает выявить качественные меры оценки взаимодействия между людьми, а его степень показывает, насколько естественным будет взаимопонимание. Эти характеристики вызывают растущий интерес в областях человеко-компьютерного взаимодействия, робототехнике и машинном обучении. Например, процесс отражения использовался для модели прогнозирования тем разговора, к которым приведёт беседа нескольких людей. Такая система обычно объединяет последовательность действий собеседников и пытается предсказать их высказывания. 

В робототехнике отражение может послужить обучению роботов человеческому языку. Наблюдая за людьми, они научатся копировать их действия и общаться с ними на равных. Этот метод использовался для разработки социальных роботов. Людям с ограниченными возможностями очень важно иметь условия, помогающие реабилитироваться и вливаться в общественную жизнь.

Эксперименты

Авторы описали два опыта: интерактивное обучение пользователей под названием «Волшебник страны Оз» (Wizard-of-Oz, WOZ) и автоматическое прогнозирование предпочтительного стиля разговора с учётом запросов, ответов и отзывов участников. 

Привет, Сири, как дела?

Исследователи из Apple предположили, что взаимодействие с цифровым помощником, который копирует вашу манеру общения, повысит степень доверия к нему. Также они проверили, предпочитают ли болтливые люди взаимодействовать с разговорчивыми собеседниками, а тихони — с такими же, как они, молчунами. Участники заполнили анкету, предназначенную для оценки их уровня «болтливости» и других черт характера (для выявления экстравертов и интровертов). Это позволило выбрать группы пользователей, сбалансированные по определённым особенностям. После этого каждый из участников прошёл опрос об использовании голосовых помощников (частота использования, типы запросов, стиль взаимодействия, надёжность, привлекательность и тому подобное).

Эксперимент проходил в три этапа взаимодействия:

  1. с разговорчивым ассистентом;
  2. с неразговорчивым ассистентом;
  3. с цифровым помощником-отражателем.

Во всех случаях цифровой ассистент контролировался «волшебником» (то есть экспериментатором), которому было дано указание не взаимодействовать с участниками напрямую. Если вы помните сказку «Волшебник страны Оз», примерно так в ней происходило общение чародея с главными героями: он представал перед ними в разных формах, но не показывал себя.

Во время экспериментов авторы записывали аудио и видео с каждым участником. Испытуемые сидели на расстоянии примерно 2.5 метра от настенного экрана. Волшебник находился за разделительной стеной и управлял цифровым помощником и дисплеем, а также синхронизировал оборудование и собирал данные с помощью ROS.

В разговорчивой и неразговорчивой обстановке участникам было предложено (с помощью инструкций на ТВ-экране) сделать устные запросы помощнику для выполнения задач в каждой из следующих областей: таймеры / будильники, календари / напоминания, навигация / маршруты, погода, новости и поиск в интернете. Для каждого запроса на экране всплывала текстовая подсказка, например: «Будильник на 8 утра». Подсказки были намеренно короткими, чтобы ограничить возможность повторять одни и те же фразы. 

Ответы ассистента генерировались для каждого запроса одинаково и не различались между участниками. Например, в подсказке написано: «Время следующей встречи». Тогда развёрнутый ответ будет: «Похоже, следующая встреча у вас после обеда в 2 часа дня», а короткий: «В 2 часа дня».  Выслушав ответ, участники должны были устно оценить его качество: хороший, не по теме, неверная информация, невежливый, небрежный и тому подобное. Все показания фиксировались «волшебником» в текстовом виде.

После погружения в разговорчивую и неразговорчивую обстановку участники ответили на вопросы о том, какая им больше пришлась по душе. Затем они приступили к взаимодействию с помощником-отражателем.

Поведение отражателя было разработано таким образом, чтобы выглядеть максимально естественно в рамках WOZ. Тот же «волшебник», что и в предыдущих опытах, снова незримо контролирует процесс. Обратите внимание, что в первых двух экспериментах ему не надо было оценивать степень развёрнутости ответа, поскольку она была задана по умолчанию в зависимости от обстановки. Здесь же его роль заключается как раз в том, чтобы дать оценку «разговорчивости» помощника для каждого его высказывания.

Каков вопрос — таков ответ

Чтобы сформировать естественный разговор, участников попросили разыграть сценарий «вечернего отдыха», который включал встречу с друзьями, поход в театр и ужин. «Волшебник» двигал сюжет, побуждая пользователей делать запросы с помощью изображений (примеры на рисунке ниже), текстовые подсказки при этом не использовались.

Изображения отсылали к воображаемым вечерним событиям, а значки указывали, какую из функций помощника участник должен использовать (например, над картинкой с одеждой был значок погоды). Набор возможных ответов для каждой подсказки был фиксирован, а уровень разговорчивости выбирался волшебником. Вот примеры ответов для запроса о погоде в порядке увеличения «болтливости»:

  1. 23, ясно.
  2. Будет 23 градуса, ясно.
  3. Будет тепло, 23 градуса и солнечное небо.
  4. Должно быть 23 градуса и ясно, так что можете не брать с собой свитер.
  5. Мои источники сообщают, что будет 23 градуса и ясно. Вам определённо не нужно брать с собой куртку.

Так же, как в разговорчивой и неразговорчивой обстановке, участники оценивали каждый ответ ассистента. После завершения испытания они снова отвечали на вопросы о его привлекательности и надёжности.

Результаты

Всего в исследовании приняли участие 20 человек (3 женщины и 17 мужчин), продолжительность сеанса варьировалась от 17 до 56 минут. Большинство людей (70%) сделали выбор в пользу общительного помощника. Согласно предварительным опросам, 60% участников были довольно болтливы, а 40% не отличались общительностью. Это говорит о том, что стиль общения не всегда указывает на то, что собеседник должен полностью ему соответствовать. Но в целом, участники-экстраверты предпочитали разговорчивого помощника, а интроверты — немногословного.

Влияние отражения на мнение о привлекательности ассистента было проверено с помощью одностороннего дисперсионного анализа. Авторы сравнили рейтинги доверия участников до исследования (среднее = 4.0, стандартное отклонение = 0.48) и после (среднее = 4.46, стандартное отклонение = 0.31). Пользователей попросили оценить, насколько они согласны с утверждением, что им нравится или не нравится взаимодействовать с ассистентом по семибалльной шкале Ликерта (1 — совсем не нравится, 4 — нейтрально, 7 — очень нравится). Разница между средними показателями до и после взаимодействия оказалась статистически значительной (f-мера = 7.12, p ≤ 0.01). Это означает, что отражение оказывает положительное влияние на доверие. 

После исследования участники делились комментариями и отмечали, что им больше понравился помощник-отражатель. В связи с этим авторы приступили к созданию классификаторов, чтобы определить, можно ли использовать особенности речи пользователя для установки соответствующего уровня разговорчивости.

Классифицируем болтунов и молчунов

Авторы создали два вида классификаторов: speaker-independent (не зависящий от говорящего) и multi-speaker (для множества говорящих). Они должны определить, указывает ли высказывание на болтливость или молчаливость и какой из ответов будет предпочтительнее: развёрнутый или короткий. Классификация «разговорчивый или нет» основывается исключительно на особенностях речи и не анализирует длительность высказывания. Продолжительность фразы далеко не всегда соотносится с тем, как много мы успели сказать.

Метки пользователя «разговорчивый» и «неразговорчивый» были извлечены из результатов опросов, а метки ответа «развёрнутый» и «короткий» получены из оценок участников. Каждому высказыванию присваивалось две метки, где одна указывала на болтливость говорящего, а вторая — на предпочтительный ответ. Из речи извлекалось 95 акустических характеристик: среднее значение, стандартное отклонение, минимум и максимум основной частоты, энергия, первые 12 MFCC (мел-кепстральных коэффициентов) и первые 5 формант.

Десять классификаторов были обучены на задачах бинарной классификации: логистическая регрессия, теорема Байеса, искусственная нейронная сеть, случайный лес с коэффициентом Джини, случайный лес с энтропией, SVM  с различными ядрами. Для всех задач использовались стандартные реализации из scikit-learn. Данные были разделены для обучения и тестирования в соотношении 80/20 (multi-speaker), а также для перекрёстной проверки (speaker-independent). Эффективность оценивалась с помощью F1-меры.

Количественные оценки

Оценки классификации показаны в таблице, которая демонстрирует, что результаты оказались хорошими для обеих задач.

Сверху: перекрёстная проверка, снизу: разбиение 80/20.

Это говорит о том, что можно вполне надёжно определить как степень разговорчивости говорящего, так и его предпочтения в ответных репликах. Эффективность разделения 80/20 указывает на то, что классификаторам не требуется большое число примеров для обучения, а эффективность перекрёстной проверки — что модели можно обобщить на новых говорящих. 

⌘⌘⌘

Исследователи Apple не собираются останавливаться на этом: для будущих голосовых помощников они планируют ввести целые диапазоны разговорчивости. Тогда развёрнутые и забавные ответы цифровых ассистентов смогут не только поднять нам настроение, но и повысить комфорт общения для самых разных людей. 

С оригинальной статьёй можно ознакомиться на сайте arxiv.org.

Domains weekly: самый дорогой домен 2020 года, конфискация террористических доменов и спор за 1919.COM

В новой подборке новостей мы расскажем о самом дорогостоящем домене 2020 года, передаче прав на владение доменом .CO, пиратском доменном...
Read More

Что такое SEO-продвижение сайта в поисковых системах?

SEO-продвижение — вечная тема, которая заслуженно будоражит умы владельцев и администраторов сайтов. Сегодня в нашем блоге о базе и азах....
Read More

Domains weekly: новая «крипта» Facebook, 52 регистратора в .RU, рост национальных зон и «коронавирусные» домены

Из нового доменного дайджеста вы узнаете о том, как Radix заработали два миллиона на премиум-доменах, о криптовалюте Diem, темпах регистрации...
Read More

4 полезных сервиса REG.RU для владельцев сайтов и не только

Представляем вашему вниманию четыре горячих предложения от REG.RU! Наши сервисы помогут вам больше узнать о домене (да-да, ещё больше, чем...
Read More

7 шагов для создания блога WordPress с личным доменом

Вы новичок в создании веб-сайтов, но уже решили что хотите попробовать WordPress? Редакция подготовила для вас пошаговый гайд по настройке...
Read More

Domains weekly: спор за «украинский TikTok», отчёт за второй квартал от VeriSign и топовые сделки

Из нового доменного дайджеста вы узнаете, как коронавирус отразился на зоне .EU, чем завершился спор за украинский TikTok-домен и, конечно...
Read More

Domains weekly: Суд за домен .AMAZON, TLDCON 2020 и заговор против ICANN

В новой еженедельной подборке новостей мы расскажем о дате запуска регистрации в зоне .GAY, о судах Амазонии с доменом .AMAZON...
Read More

Адрес на миллион: что такое премиум-домены и почему они такие дорогие

Вы нашли красивый и доступный домен для сайта, но его цена почему-то намного выше, чем у большинства других адресов? Значит,...
Read More

Какой язык выбрать начинающему веб‑разработчику: Perl, Python или JavaScript

Выбрать язык программирования для изучения с нуля — проблема, которая волнует многих разработчиков. Как выбрать язык, который не только сможет...
Read More

Domains weekly: «Доменный патруль», продажа 007.BOND и JAMES.BOND и самые ценные домены мира

В очередной подборке новостей мы откроем секрет, как попасть в социально значимые сайты, расскажем о топе самых ценных доменных именах...
Read More