Хотите общаться с контроллером и отдавать команды голосом? «Окей, Ардуино, мигни светодиодом на 13-м пине!» Звучит круто, но программное распознавание голоса — слишком сложная задача для ардуинки и инженера-любителя. Модуль EasyVR 3 Plus Shield — готовое решение для распознавания голосовых команд, чтобы управлять умным домом или своими роботами.
EasyVR расшифровывается как «Easy Voice Recognition» и позволяет записать перечень команд через микрофон, а потом определить, фразу с каким номером вы произносите. Получив номер команды, микроконтроллер выполняет заложенное в неё действие: включает-выключает свет в комнате, открывает дверь хозяину или подаёт чашечку кофе. Также устройство умеет проигрывать в ответ заранее записанные аудиофрагменты, чтобы поддерживать диалог.
Принцип действия
EasyVR 3 Plus использует два метода распознавания голоса для различных сценариев применения.
- Speaker-independent (SI) — фонетический алгоритм распознавания речи, который работает с отдельным языком. Тут заготовлено 26 базовых команд и 6 словарей: английский, итальянский, немецкий, французский, испанский и японский. В этом случае учитываются фонетические особенности, которые образуют разные слова, а индивидуальность голоса пользователя не имеет значения. Предустановленные команды включают в себя направления движения (влево-вправо, вперёд-назад, вниз-вверх), несколько ключевых действий (двигаться, стоять и т. д.), а также арифметические числа от 0 до 10.
- Speaker-dependent (SD) — точный алгоритм, который отличает речевые характеристики разных людей. То есть, устройство реагирует только на тех, чей голос звучит в оригинале команды. В этом кроются плюсы и минусы метода: с одной стороны, круг доверенных пользователей становится ограничен, с другой стороны — алгоритм не привязан к какому-либо языку и точно распознаёт хозяина. Метод распознавания SD включает в себя дополнительный режим Speaker-verification (SV) для создания «голосового пароля», который идентифицирует говорящего человека по индивидуальным характеристикам голоса.
Несмотря на то, что устройство формально не поддерживает русский язык из коробки, оно запросто будет понимать ваши русскоязычные команды в режиме Speaker-dependent (SD).
Возможности
- Распознавание пользовательских речевых команд по алгоритму SD (до 256 фраз на любом языке).
- Распознавание предустановленных речевых команд по алгоритму SI на 6 языках (26 базовых фраз).
- Заливка и воспроизведение звуковых ответов, задаваемых пользователем.
- Синтез тональных телефонных сигналов DTMF для управления модулями умного дома или охранной системы.
- Общение с другими звуковыми устройствами с помощью технологии SonicNet, которая передаёт данные по воздуху звуковыми импульсами.
Начинка
Модуль EasyVR 3 Plus сделан на базе чипа Sensory RSC-4128 — проверенного решения для распознавания речи, которое также используется в интерактивных игрушках Furby и прочих роботизированных штучках с голосовым управлением.
Система на кристалле RSC-4128 объединяет в себе 8-битный микроконтроллер с интегрированным АЦП, ЦАП, предусилителем, ОЗУ и специализированными блоками обработки звука. Именно они отвечают за быстрое распознавание голосовой информации на лету.
Подключение и настройка
Работа с EasyVR 3 Plus Shield делится на два этапа. Сначала в модуль необходимо записать референсные команды через управляющую плату и родную программу EasyVR Commander для Windows, а затем устройство в штатном режиме будет считывать голосовые команды и выдавать контроллеру управляющие сигналы. Подробный алгоритм начала работы приведён в нашей инструкции на Wiki.
Микрофон и внешний динамик подключаются к плате через JST-разъёмы. Обратите внимание, что сопротивление громкоговорителя должно быть не ниже 8 Ом. Аудиовыход 3,5 мм рассчитан на наушники сопротивлением 16–32 Ома и способен работать в качестве линейного выхода.
Комплектация
- 1× Модуль EasyVR 3 Plus
- 1× Плата расширения для EasyVR 3 Plus
- 1× Микрофон
- 1× Провод для динамика
- 1× Набор штырьковых соединителей
Обратите внимание, что плата поставляется с невпаянными штырьковыми соединителями. Чтобы начать работу с модулем, вам понадобится спаять контактные колодки самому. Смотрите наше руководство по пайке для начинающих, а также запаситесь паяльником, припоем и флюсом.
Характеристики
- Микросхема распознавания речи: Sensory RSC-4128
- Напряжение питания: 3,3–5 В
- Напряжение логических уровней: 3,3–5 В
- Потребляемый ток: до 400 мА
- Интерфейс: UART
- Количество пинов GPIO: 6
- Методы распознавания речи: SI (speaker-independent) и SD (speaker-dependent)
- Количество языков для SI-команд: 6 (английский, итальянский, немецкий, французский, испанский и японский)
- Количество предустановленных SI-команд: 26
- Количество пользовательских SD-команд: 256
- Объём предварительно записанных аудиоданных: <21 мин
- Объём записанных в реальном времени аудиоданных: <137 сек
- Аудиовход: штатный микрофон с разъёмом JST PH-2
- Аудиовыход: наушники 16–32 Ома (мини-джек 3,5 мм) или динамики от 8 Ом (JST PH-3)
- Габариты: 68,5×53,3 мм
Ресурсы
Обзор EasyVR 3 Plus Shield:
