Alexa, Siri и Google не понимают ни слова, которое вы говорите

Голосовые помощники, такие как Alexa, Google Assistant и Siri, прошли долгий путь за последние несколько лет. Но, несмотря на все улучшения, их сдерживает одно: они вас не понимают. Они слишком полагаются на определенные голосовые команды.

Оглавление

Распознавание речи — это просто волшебный трюк

Поговорка с эхо-точкой

Голосовые помощники вас не понимают. Во всяком случае, не совсем. Когда вы разговариваете с Google Home или Amazon Echo, он по сути преобразует ваши слова в текстовую строку, а затем сравнивает ее с ожидаемыми командами. Если он находит точное совпадение, он следует набору инструкций. Если это не так, он ищет альтернативу тому, что делать, в зависимости от того, какая информация у него есть, и если это не сработает, вы получите сообщение об ошибке, такое как «Извините, но я не знаю, что . » Это немного больше, чем магия ловкости рук, заставляющая вас думать, что она понимает.

Он не может использовать контекстные подсказки, чтобы сделать наилучшее предположение, или даже использовать понимание похожих тем для обоснования своих решений. Также несложно запутать голосовых помощников. Хотя вы можете спросить Алексу: «Вы работаете на АНБ?» и получите ответ, если спросите: «Вы тайно являетесь членом АНБ?» вы получите ответ «Я не знаю этого» (по крайней мере, на момент написания этой статьи).

Люди, искренне понимающие речь, так не работают. Предположим, вы спрашиваете человека: «Что это за кларвейн в небе? Тот, который имеет форму арки и полон полос таких цветов, как красный, оранжевый, желтый и синий ». Несмотря на то, что слово «кларвайн» было выдуманным, человек, которого вы спросили, вероятно, мог бы понять из контекста, что вы описываете радугу.

Вы можете утверждать, что человек преобразует речь в идеи, но затем человек может применить знания и понимание, чтобы прийти к ответу. Если вы спросите человека, работают ли они тайно на АНБ, он ответит вам да или нет, даже если этот ответ будет ложью. Человек не сказал бы: «Я не знаю этого» на такой вопрос. То, что люди могут лгать, приходит с пониманием.

Голосовые помощники не могут выходить за рамки своего программирования

Голосовые помощники в конечном итоге ограничены запрограммированными ожидаемыми параметрами, и выход за их пределы нарушит процесс. Этот факт проявляется, когда в игру вступают сторонние устройства. Обычно команда для взаимодействия с ними очень громоздка и сводится к тому, чтобы «указать производителю устройства указать необязательный аргумент команды». Точный пример: «Скажите Whirlpool, чтобы он остановил сушилку». Для еще более трудного для запоминания примера Женева Алекса мастерство управляет некоторыми печами GE. Пользователь навыка должен не забыть «сказать Женеве», а не «сказать GE», а затем остальной части команды. И хотя вы можете попросить его разогреть духовку до 350 градусов, вы не можете продолжить с просьбой повысить температуру еще на 50 градусов. Однако человек мог выполнить эти просьбы.

Amazon и Google очень много работали, чтобы преодолеть эти препятствия, и это видно. Если раньше для управления интеллектуальным замком вам приходилось следовать описанной выше последовательности, то теперь вы можете сказать «запри входную дверь». Раньше Алекса смущала фраза «расскажи мне анекдот про собаку», но попроси сегодня анекдота, и это сработает. Они добавили вариации к командам, которые вы используете, но в конечном итоге вам все равно нужно знать, какую команду произносить. Вам необходимо использовать правильный синтаксис в правильном порядке.

И если вы думаете, что это очень похоже на командную строку, вы не ошибаетесь.

Голосовые помощники — это причудливая командная строка

Командная строка с текстом для поиска

Командная строка узко определена для выполнения простых задач, но только если вы знаете правильный синтаксис. Если вы выскользнете из этого правильного синтаксиса и наберете dyr вместо dir, то в командной строке появится сообщение об ошибке. Вы можете использовать псевдонимы, чтобы упростить запоминание команд, но вы должны иметь представление о том, какими были исходные команды, как они работают и как эффективно использовать псевдонимы. Если вы не потратите время на изучение тонкостей командной строки, вы никогда не получите от нее многого.

Голосовые помощники ничем не отличаются. Вам нужно знать, как правильно сказать команду или задать вопрос. И вам нужно знать, как создавать группы для Google и Alexa, почему группировка ваших устройств важна и как давать имена своим интеллектуальным устройствам. Если вы не выполните эти необходимые шаги, вы почувствуете разочарование, попросив своего голосового помощника выключить исследование, а вас спросят, «какое исследование» следует выключить.

Даже если вы используете правильный синтаксис в правильном порядке, процесс может завершиться ошибкой. Либо с неправильным ответом, либо с неожиданным результатом. Два Google Home в одном доме могут показывать погоду для немного разных мест, даже если у них есть доступ к одной и той же информации учетной записи пользователя и подключению к Интернету.

В приведенном выше примере дается команда «Установить таймер на полчаса». Хаб Google Home создал таймер под названием «Час», а затем спросил, как долго должен быть таймер. И все же повторение той же команды еще три раза сработало правильно и создало 30-минутный таймер. Использование команды «Установить таймер на 30 минут» работает правильно и более стабильно.

Хотя разговор с Google Home или Echo может быть более плавным, голосовые помощники и командные строки работают одинаково. Возможно, вам не нужно учить новый язык, но вам нужно выучить новый диалект.

Узкое понимание голосовых помощников ограничит рост

Домашний хаб Google и точка Echo перед розеткой и лампочкой

Ничто из этого не мешает голосовым помощникам, таким как Google Assistant и Alexa, работать достаточно хорошо (хотя Cortana — это другая история). Google Assistant и Alexa прилично ищут в Интернете вопросы, хотя неудивительно, что Google лучше справляется с поиском и может отвечать на базовые вопросы, такие как преобразование измерений и простая математика. При правильно настроенном умном доме и хорошо обученном пользователе большинство команд умного дома будут работать должным образом. Но это произошло благодаря работе и усилиям, а не интеллектуальному пониманию.

Таймеры и будильники раньше были упрощенными. Со временем было добавлено именование, а затем возможность добавлять время к таймеру. Они перешли от упрощенного к более сложному. Голосовые помощники могут ответить на большее количество вопросов, и каждый день приносит новые навыки и функции. Но это не результат саморазвития, происходящего от обучения и понимания.

И ничто из этого не обеспечивает присущей им возможности использовать то, что известно, для достижения неизвестного. На каждую команду и вопрос, которые действительно работают, всегда найдется три, которые не работают. Без прорыва в искусственном интеллекте, дающего человеческую способность к пониманию, голосовые помощники вообще не помощники. Это просто голосовые командные строки — полезные в правильном сценарии, но ограниченные теми сценариями, которые они запрограммированы понимать.

Другими словами: машины учатся, но не могут их понять.