Как Алекса слушает слова для пробуждения

Алекса всегда слушает, но не записывает постоянно. Он ничего не отправляет на облачные серверы, пока не услышит, что вы произносите пробуждающее слово (Alexa, Echo или Computer). Но прислушиваться к словам пробуждения труднее, чем вы думаете.

Оборудование Echo не так уж и умно. Без Интернета любой запрос или вопрос, который вы зададите, потерпят неудачу. Это потому, что ваши команды отправляются в облако для интерпретации и принятия решений. Amazon хочет, чтобы записывались не все ваши разговоры перед умным динамиком, а только команды, которые вы даете умному динамику. По этой причине компания использует пробуждающее слово, чтобы привлечь внимание умного динамика. Для этого Amazon использует комбинацию точно настроенных микрофонов, короткого буфера памяти и обучения нейронной сети.

Тонко настроенные микрофоны точно определяют ваш голос

Amazon Echo dot 3 с горящим голубым светодиодным кольцом.Голубой светодиод всегда будет смотреть в направлении вашего голоса.

Динамики голосового помощника, такие как Echo и Echo Dot, обычно имеют несколько встроенных микрофонов. Например, у Echo Dot их семь. Этот массив дает устройствам несколько возможностей, от прослушивания команд, произносимых на расстоянии, до отделения фонового шума от голоса.

Последнее особенно полезно для обнаружения слова пробуждения. Используя несколько микрофонов, Echo может определить ваше местоположение относительно того, где он сидит, и слушать в этом направлении, игнорируя остальную часть комнаты.

Вы видите это в действии всякий раз, когда используете пробуждающее слово. Встаньте рядом с Echo или Echo Dot и произнесите пробуждающее слово. Обратите внимание, что кольцо загорается темно-синим цветом, а затем — более голубым, когда оно кружит и «указывает» на вас. Теперь отойдите на несколько шагов в сторону и еще раз произнесите слово для пробуждения. Обратите внимание, что за вами следуют голубые огни.

Знание того, где вы находитесь, помогает устройству лучше сосредоточиться на вас и Отключить шумы, идущие откуда-нибудь.

Короткая память не позволяет говорящему удерживать слишком много

У устройств Echo много места для хранения, но они не используют его много. По словам Рохита Прасада, вице-президента Amazon и главного научного сотрудника Alexa Artificial Intelligence, an Echo может физически хранить только несколько секунд аудио.

Уменьшая свои возможности, Amazon не только обеспечивает большую конфиденциальность (это на одно место меньше места для хранения вашего голоса), но также предотвращает прослушивание Echo целых разговоров, ограничивая свое внимание поиском пробуждающего слова.

Представьте, что у вас есть трехсекундная кассета и магнитофон. Предположим, что после того, как она достигла конца, лента снова и снова возвращалась к началу. Если вы начнете записывать разговор, все, что вы сказали четыре секунды назад, будет стерто и немедленно записано. Вот что делает Amazon Echo.

Он записывает непрерывно, но одновременно стирает все, что только что записал. Этот короткий интервал внимания означает, что все, что он может услышать, — это слово «Алекса» и не более того. Однако трех секунд достаточно для того, чтобы это слово было записано, исследовано и отреагировано соответствующим образом.

Обучение нейронной сети помогает с сопоставлением с образцом

Блок-схема слоев алгоритма Amazon.Представление слоев, используемых алгоритмами Amazon.

Наконец, Amazon зависит от обучение нейронной сети научить Echo подбирать шаблон. Подобно другим формам машинного обучения, Amazon обучает свои алгоритмы, скармливая им экземпляр за экземпляром слова Alexa (или Computer, или Echo, в зависимости от того, какое слово пробуждения использует компания).

Идея состоит в том, чтобы охватить все интонации и акценты, а также контекст. Amazon хочет, чтобы ваше эхо распознавало разницу, когда вы с ним разговариваете, когда вы говорите об этом или, возможно, когда вы разговариваете с человеком по имени Алекса. Направленные микрофоны также помогают в достижении этой цели.

С каждым словом, которое слышит Echo, он пропускает звук через слои алгоритмов. Каждый уровень предназначен для исключения ложных срабатываний, поиска похожих звуков или контекстных подсказок. Если проверка одного слоя проходит, слово переходит к следующему. Наконец, когда локальное устройство решает, что оно услышало слово пробуждения, оно начинает записывать и передавать звук на облачные серверы Amazon. Amazon использует четыре алгоритма: один для каждого слова пробуждения (Alexa, Computer, Echo) и один для Alexa Guard, который обрабатывает определенные звуки, такие как разбитие стекла, как слово пробуждения.

Но даже при совпадении Amazon выполняет более сложные проверки. Вы замечали, что когда кто-то произносит слово Alexa в телешоу или в рекламе, это обычно не вызывает ответа от вашего Echo? Это потому, что Amazon также выполняет облачную проверку.

Cloud Checks исключает ложные срабатывания

Мужчина из рекламы Alexa смотрит на свою зажженную зубную щетку Echo.Этот веселая реклама Alexa не разбудит ваше эхо.

Когда компании делают рекламные ролики с участием Alexa, они могут отправить аудио на Amazon. Компания обрабатывает звук с помощью аналогичных алгоритмов сопоставления с образцом, используемых для идентификации пробуждающего слова. После того, как этот конкретный экземпляр полностью каталогизирован, он добавляется в базу данных.

В рамках процесса обращения к облаку ваше эхо включает информацию об услышанном пробуждающем слове и проверяет эту базу данных. Когда он находит совпадение, Amazon инструктирует ваше эхо игнорировать слово пробуждения, выключать и отбрасывать любой записанный звук.

Кроме того, Amazon проверяет, не произносятся ли одновременно слова пробуждения. Не каждая компания отправляет аудио в Amazon, поэтому компания придумала новое решение для резервного копирования. После проверки совпадения с базой данных компания сравнивает отпечаток слова пробуждения с любыми другими экземплярами, поступающими в то же время. Маловероятно, что два человека, которые говорят, что Alexa одновременно, будут звучать совершенно одинаково, поэтому, если есть совпадение, Amazon знает, что это, вероятно, коммерческое или телешоу, и игнорирует запрос.

Несмотря на все проверки, ложные срабатывания все же происходят. Вы можете слушать то, что записало ваше эхо, на Центр конфиденциальности Amazon, и вы, вероятно, найдете хотя бы одно ложное срабатывание в группе. Но технология постоянно совершенствуется, и, в конце концов, Amazon захочет, чтобы она работала вообще без пробуждения.