Поиск по сайту Поиск

Топ‑5 голосовых приложений, созданных с помощью GPU

Речевой ИИ активно развивается и набирает популярность. Появляется всё больше приложений, распознающих речь и обрабатывающих естественный язык. Мы решили выделить пять наиболее популярных проектов с речевым ИИ, разработанных с помощью графических процессоров NVIDIA.

5. Amazon Alexa: распознавание человеческих эмоций

Разработчики из Amazon Research опубликовали статью, описывающую, как они используют состязательное обучение для улучшения распознавания речевых эмоций.

«Тон человека может многое рассказать о том, как он себя чувствует. Неудивительно, что распознавание эмоций становится все более популярной темой для разговорного ИИ», — сказал Виктор Розгич, старший специалист по прикладным исследованиям в группе Alexa Speech.

Работа проделана в сотрудничестве со Сринивасом Партхасарати, аспирантом факультета электротехники в Техасском университете.

4. Text2Scene: генерация изображений по их описанию

Чтобы улучшить распознавание запросов пользователей, исследователи из IBM и Университета Вирджинии разработали модель глубокого обучения Text2Scene. Она может генерировать изображения из их голосового описания на естественном языке. В отличие от других недавних решений, этот подход не использует GAN. 


Сравнение Text2Scene с другими решениями

«Мы показываем, что с помощью незначительных модификаций модель может генерировать сцены в различных стилях, в том числе карикатуры, синтетические и реалистичные изображения», — заявили исследователи. 

3. DeepZen: создание аудиокниг

Ежегодно в Соединенных Штатах издаётся и публикуется почти миллион книг, но лишь около 40 тысяч из них переводятся в аудиокниги. Это связано в основном с большими затратами и долгим временем их создания.

Чтобы упростить этот процесс, компания DeepZen разработала систему глубокого обучения, которая может генерировать аудиокниги. При этом создаваемые голоса похожи на человеческие и произносят фразы с эмоциональной окраской.

«Традиционная запись аудиокниг занимает слишком много времени и дорого стоит», — говорит Тайлан Камис, соучредитель и генеральный директор DeepZen. «Нужно найти рассказчика, арендовать звукозаписывающую студию и записать множество фраз. Это довольно длительный процесс, который может продолжаться от трех недель до нескольких месяцев. Цена создания одной аудиокниги достигает 5000 долларов. Мы решили упростить задачу: пользователи DeepZen могут выбирать голоса из готовой библиотеки, изменять и настраивать их, а затем генерировать рассказ.»

Вот отрывок повести «Превращение» Франца Кафки, сгенерированный нейросетью:

2. Multi-Task DNN: новые результаты GLUE

Microsoft AI Research недавно объявила о прорыве диалогового ИИ, который достиг новых результатов в задачах обработки естественного языка (Natural Language Processing, NLP) и, в частности, общего понимания языка (General Language Understanding Evaluation, GLUE). 

NLP-алгоритм называется Multi-Task DNN. Впервые его выпустили в январе этого года и обновили в апреле. Модель включает нейросеть BERT NLP от Google.


Оценки GLUE для трёх моделей: BERT, MT-DNN и Distilled MT-DNN.

«Для каждой задачи мы обучаем ансамбль разных методов MT-DNN (учителя), который превосходит любую отдельно взятую модель, а затем с их помощью обучаем одну сеть MT-DNN (учащегося) через многозадачное обучение.» — говорят исследователи. Исходный код MT-DNN доступен на GitHub.

1. VOCA: анимация речи

Исследователи из Института интеллектуальных систем Макса Планка разработали алгоритм глубокого обучения VOCA, который из аудиозаписи голоса и статичной 3D-модели создаёт реалистичную анимацию говорящего. 

«Существует множество книг и работ по оценке формы головы, выражений и движений лицевых мышц по изображениям и видео. Воссозданию анимации лиц по звуку уделяется гораздо меньше внимания», — заявляют исследователи. «Понимание связи между произносимой речью и движениями лица даёт ценную информацию для этой задачи, особенно если визуальные данные зашумлённые, неоднозначные или вовсе отсутствуют».

Интересный факт: для создания всех пяти приложений использовались самые мощные на сегодняшний день GPU NVIDIA Tesla. Если вы тоже планируете масштабный проект с обучением речевого ИИ и вам нужна максимальная производительность — воспользуйтесь нашими серверами с GPU NVIDIA Telsa V100.


⌘⌘⌘

Надеемся, что на этом развитие речевого искусственного интеллекта не закончится, и скоро он сможет достигнуть уровня человека в некоторых задачах (а может, и превзойдёт его). Какими приложениями с голосовым ИИ пользуетесь вы? Алиса, Сири или Google Ассистент? Делитесь в комментариях!

С оригинальной статьёй можно ознакомиться в блоге NVIDIA.

Поведенческие факторы ранжирования и их влияние на SEO: взгляд изнутри

Поведенческие факторы ранжирования и их влияние на SEO: взгляд изнутри

Редакция блога продолжает цикл образовательных SEO-статей. Сегодня вместе с SEO-специалистом REG.RU Евгением Сметаниным мы расскажем, что такое поведенческие факторы ранжирования,...
Read More
Безвозмездно, то есть даром: что можно получить бесплатно в REG.RU

Безвозмездно, то есть даром: что можно получить бесплатно в REG.RU

В REG.RU мы постоянно работаем над развитием и улучшением сервисов, и на первое место всегда ставим заботу о клиентах. У...
Read More
Domains weekly: неудавшийся захват Domovoy.ru, гранты от ICANN и домен, приносящий богатство

Domains weekly: неудавшийся захват Domovoy.ru, гранты от ICANN и домен, приносящий богатство

Сегодня поделимся новостями о том, как сеть супермаркетов не смогла заполучить желаемый домен, почему в Китае ценятся числовые адреса и...
Read More
Шпаргалка по Python для Django

Шпаргалка по Python для Django

В Python очень много полезных функций, библиотек и других элементов, перечислить которые в одном материале очень сложно. Мы поделимся базовой...
Read More
Domains weekly: безопасное инвестирование, открытие зоны .NEW и блокчейн‑домены

Domains weekly: безопасное инвестирование, открытие зоны .NEW и блокчейн‑домены

Дайджест домейнера с новостями о безопасном способе инвестирования в домены, политике ICANN в отношении доменных споров, открытии общедоступной регистрации .NEW...
Read More
Как подготовить и провести вебинар на любую тему: стратегия из 8 шагов от REG.RU

Как подготовить и провести вебинар на любую тему: стратегия из 8 шагов от REG.RU

Харизматичный спикер, интересная тема, качественная презентация, внимательные слушатели — что же ещё нужно для хорошего вебинара? В этом материале мы...
Read More
Domains weekly: популярные ccTLDs в России, 17‑летняя ошибка Microsoft и уязвимости аукционных доменов

Domains weekly: популярные ccTLDs в России, 17‑летняя ошибка Microsoft и уязвимости аукционных доменов

Сегодня расскажем о том, как изменился рынок доменных имён в 2019 году, какие национальные домены кроме .RU и .РФ используют...
Read More
10 фишек Облачных серверов REG.RU

10 фишек Облачных серверов REG.RU

Если вы выбрали для своего проекта VPS, то наверняка знаете об их особенностях. Но что, если мы скажем, что Облачные...
Read More
Настраиваем шифрование жесткого диска, чтобы избежать утечек данных

Настраиваем шифрование жесткого диска, чтобы избежать утечек данных

В каждой компании есть сотрудники, которые хранят на рабочем компьютере конфиденциальную информацию, и её утечка может оказаться катастрофой. Среди таких...
Read More
Domains weekly: отказ в зоне .INTERNET, «собачья» прибыль и дроп домена Google

Domains weekly: отказ в зоне .INTERNET, «собачья» прибыль и дроп домена Google

ICANN вновь и вновь отказывает индийской компании в делегировании зоны .INTERNET, собака вдохновила хозяина на домен стоимостью полмиллиона долларов, Google...
Read More