Сергей Пальмов: "В будущем голосовые системы станут умнее"

Включить музыку, найти необходимую информацию в Интернете, заказать товар или услугу, прослушать новости - это далеко не полный список того, что можно сделать с помощью голосовых помощников, которые стали неотъемлемой частью нашей жизни. Их работу обеспечивает голосовой пользовательский интерфейс. Об особенностях его создания и функционирования "Цифра" поговорила с кандидатом технических наук, доцентом кафедры информационных систем и технологий ПГУТИ Сергеем Пальмовым.

Фото: предоставлено Сергеем Пальмовым

- Сергей Вадимович, что такое голосовой пользовательский интерфейс?

- Голосовой пользовательский интерфейс (Voice User Interface, VUI) - способ общаться с системой, когда вместо "кликов" и набора текста ты просто говоришь. Тут важна не только связь "спросил - ответили", но и целая цепочка действий: система "слушает", переводит звук в текст, пытается понять, чего ты от нее хочешь, решает, что сделать, и отвечает тебе голосом. Проще говоря - это как разговор с помощником, только он встроен в приложение или устройство. Кроме того, хороший VUI предполагает еще и продуманный сценарий разговора, правила реакции на то или иное поведение пользователя и умение корректно "выйти" из тупика.

- Какие задачи он решает? Каковы области применения VUI?

- VUI решает те задачи, где голосовой ввод быстрее и удобнее ручного: быстрый поиск, включение устройств, голосовое меню в службах поддержки, оформление заказа, навигация в автомобиле и так далее. Применение - банки (интерактивное голосовое меню/боты), колл-центры (автоответчики и ассистенты операторов), розничная торговля (заказ товаров), здравоохранение (медицинские справки и навигация по сервисам), автомобили, бытовая техника и многое другое. "Голос" не всегда заменяет "обычный" графический интерфейс полностью - чаще он дополняет его там, где это действительно удобно.

- Каковы его ключевые элементы?

- "Классический" набор элементов включает инструменты для автоматического распознавания речи (ASR), понимания намерений пользователя (NLU), также присутствуют диалоговый менеджер (ведет диалог с человеком) и модуль, преобразующий текст в речь (TTS) для вывода ответа. Кроме того, нужны средства логирования и аналитики - без них сложно понять, где пользователь теряется и на каком этапе диалог перестает работать так, как задумывалось.

- Какие технологии используются для реализации VUI?

- Чем сложнее VUI, тем, как правило, задействуются все более сложные технологии. Для получения качественного продукта используют нейросетевые архитектуры типа "трансформер" (распознавание речи, выявление намерений пользователя, ведение диалога). Также применяют и менее тяжелую "артиллерию", например, правила ("ЕСЛИ пользователь не отвечает более n секунд, ТО повторить вопрос") или гибридные решения (например, нейросеть формирует результат, но перед дальнейшим использованием он дополнительно проверяется при помощи правил). Часто используют облачные сервисы ("Яндекс", ВК, "Рос­телеком" и т.д.). Отдельной задачей является управление "просодией" (паузами, ударениями и скоростью речи). Например, если пользователь нервничает, то система может начать разговаривать с ним более спокойным, доброжелательным тоном. 

- Какие специалисты занимаются созданием VUI?

- Обычно в команду входят различные специалисты: продуктовый менеджер ставит задачу, UX/VUI-дизайнер проектирует сценарии, лингвисты и сценаристы пишут фразы и варианты ответов, ML-инженеры строят модели ASR/NLU/TTS, бэкенд-разработчики интегрируют сервисы, QA-инженеры тестируют диалоги, аналитики собирают метрики. Иногда нужны эксперты по обработке звука и актеры для записи образца речи. В небольших коллективах роли могут совмещаться.

- Какие преимущества получает цифровая платформа, имея в своей структуре VUI?

- Скорость (голосовые команды часто выполняются быстрее, чем ввод текста). Доступность для ЛОВЗ (люди с нарушениями зрения или моторики получают удобный путь взаимодействия с цифровыми сервисами). Третий аспект - удобство в ситуациях, когда "руки заняты" (за рулем, на кухне). Также VUI помогает разгрузить службу поддержки, потому что рутинные операции автоматизируются. Наконец, у человека создается ощущение персонализации, что повышает лояльность пользователей (клиенту приятно, когда к нему обращаются по имени вежливым голосом).

- Всем ли видам цифровых платформ нужен VUI?

- Нет, далеко не всем. Если основная работа - визуальная и связана с выполнением большого числа "тонких" манипуляций (редактирование фото, детальная аналитика), голос едва ли заменит графический интерфейс. Но если задачи представляют собой быстрые запросы, управление устройствами, поиск по базе или проверку доступности - VUI может дать значимый плюс. Решение - внедрять "голос" или нет  - всегда продуктовое: сначала выясняют, какие задачи это реально улучшит, и оценивают, окупятся ли затраты на разработку и поддержку.

- Какое значение для функционирования VUI имеет его дизайн?

- Дизайн здесь ключевой фактор. Голос слушают, а не "скроллят": длинные инструкции утомляют, а в запутанных ветках диалогов легко потеряться. Нужны простые шаги, понятные подсказки и предсказуемые ответы. Плохо спроектированный диалог раздражает, пользователи перестают понимать суть и уходят - поэтому дизайн во многом определяет успех VUI.

- Каковы ключевые особенности дизайна голосового пользовательского интерфейса?

- Краткость (короткие фразы), явные опции при выборе ("скажи "да" или "нет"), дополнительное подтверждение важных действий, сценарии, которые помогают системе не "теряться", если пользователь сказал что-то неожиданное, ограничение сложности диалогов, мультимодальность (голос + визуальные подсказки), и внимание к просодии - где сделать паузу, что подчеркнуть и т.д. Также важны сценарии "выхода" - как быстро переключиться на человека-­оператора или на другой канал взаимодействия с пользователем.

- Вы уже второй раз упомянули просодию. Расскажите, пожалуйста, подробнее о ней - в чем ее важность?

- Просодия - это "музыка речи": интонация, ударения, паузы и темп. Без нее синтезированный голос звучит "плоско" и утомительно, с ней - естественно и доверительно. Современные инструменты позволяют управлять просодией, расставляя паузы, изменяя интонацию, правильно произнося числа и проч. Хорошая просодия улучшает понимание и снижает количество повторных вопросов со стороны человека.

- Какие знания/навыки по работе с VUI получают студенты ПГУТИ?

- Студенты знакомятся с конвейером VUI: распознавание речи → выявление намерений → принятие решения → озвучание решений (текст-в-речь), учатся проектировать диалоги, выявлять намерения и собирать метрики качества.

- Как, по-вашему, будет развиваться голосовой интерфейс дальше?

- В будущем голосовые системы станут умнее: они будут чаще использовать большие языковые модели и похожие на них мультимодальные решения, комбинируя строгие правила с возможностями генеративных нейронных сетей. При этом часть обработки станет выполняться прямо на устройстве (это быстрее и безопаснее для данных пользователя), а также системы станут лучше подстраиваться под конкретного человека. Важными останутся контроль безопасности и проверка фактов у сгенерированных ответов, чтобы избежать "галлюцинаций" (данных, отсутствующих в реальности). "Голос" будет развиваться не как замена, но как часть набора каналов взаимодействия - там, где он реально добавляет ценности цифровому сервису.

Версия для печати