低功耗,始终开启语音命令系统的设计考虑因素

语音助理和集成正在实施到市场上的大多数产品,设备和技术。据说,这是毫不秘密的,这些有用的语音助手总是可以倾听激活/唤醒词语(例如“好的谷歌”或“Alexa”),这通常使用大量功率。在技​​术迅速推进的世界中,必须考虑这对能源消耗的影响。

本文提供了使用语音活动检测(VAD)的低功耗,始终开启语音命令系统的设计考虑因素。它在选择创建易于节能语音用户界面(VUI)所需的组件时探讨权衡和注意事项。

Th VAD功能在聆听唤醒词之前检测到环境中的人类声音,这意味着当没有人回家时,您的语音助手将不会浪费不必要的能量。据估计,世界各地使用42亿数字语音助理,预计该号码将推移2024年。将这项技术实施成为语音助理软件和依赖语音集成的其他产品将急剧降低那些能源消耗谁使用语音助手。

有几种用于实现VUI系统的硬件架构。通常,典型的语音用户界面实现由麦克风组成,单个麦克风或连接到音频处理器的麦克风阵列,用于捕获和处理语音。

可以在边缘音频边缘处理器,带内置音频边缘处理器的智能麦克风或标准应用处理器(AP)上的传入音频流。边缘音频处理器针对音频信号的低功耗和低延迟处理进行了优化。除了提供输入音频的专用处理之外,边缘音频处理器还可用于后处理音频输出信号。如果VUI系统连接云,则音频边缘处理器还可以通过具有无线连接的主系统上的芯片(SOC)与云VUI接口通信。本文提出了两种不同的VUI系统实现以及各自的权衡。

超低功耗VAD(语音活动检测)

图1中所示的结构支持使用模拟信号路径的超低功耗Vui,包括模拟麦克风和模拟比较器,以提供唤醒触发器。当检测到声学活动时,模拟信号链会产生一个中断以唤醒音频处理器以进行语音捕获。该设备还可以包括“按钮对话”功能,由此用户推动按钮唤醒音频处理器。

知识图1  - 语音按钮触发唤醒
图1.超低功耗,始终导通VUI硬件信号链,用于遥控器而无需预先滚动。

模拟唤醒麦克风必须始终倾听环境,因此这种麦克风以及比较器,必须消耗很少的功率。在其最简单的唤醒触发模式下具有小于1MW的功耗小于1MW的高效音频处理器的示例,以及用于高级音频处理的1MB内存是知识IA8201。虽然图1所示的方法提供了一种简单的低功耗AAD(声学活动检测)方法,用于遥控器等设备上的始终on Vui,但它具有局限性。此实现唤醒了任何声学信号的音频处理器,可以导致嘈杂情况下的高整体系统功耗。此外,作为云连接的语音用户界面系统需要在捕获字之前捕获唤醒词之前的时段的音频数据以增加唤醒词检测的准确性。这通常被称为前滚动,并且是一种必须对Alexa的设备和其他智能扬声器设备的要求。

Knowles图2  - 始终关键字触发预滚动缓冲
图2.支持智能扬声器等设备预滚动缓冲的架构。

图2显示了一种支持智能扬声器等设备预滚动缓冲的架构。这些设备通常具有更大的电池和/或可能不需要在一次电荷上的多个月的电池寿命的要求。 VUI系统始终打开,收听环境并在循环缓冲区中录制预滚动。预辊的长度通常是音频数据的500ms的顺序,并且用于校准环境噪声水平。

设计始终如一的前端架构有一些不同的方法。音频处理器的选择取决于所使用的麦克风的数量,以及它们是否是模拟的或数字。

上面显示的架构使用了用于语音活动检测的知识IA611,用于波束成形的SPH0655LM4H-1 Cornell II数字麦克风,以及用于音频处理的知识IA8201。 Knowles IA611是一个智能麦克风,为系统设计师提供优势,如下所述所述部分所述。

麦克风选择

对于图1所示的架构,单个模拟麦克风和比较器用作触发输入以在检测到声学活动时唤醒音频处理器。 Wake-MIC应是低功率模拟麦克风,具有信噪比(SNR)优选高于62 dB。讽刺思科MEMS麦克风产品组合为唤醒麦克风提供了几种选择。例如,SPV1840LR5H-B KASKASE模拟麦克风是一个良好的选择,仅在45μA时耗电。始终如一的模拟路径,包括麦克风,放大器和比较器,消耗小于67μA。市场上有压电麦克风,具有非常低,始终开启功率(10μA),但它们通常具有低SNR,这会影响系统性能。

对于图2中所示的预滚动缓冲的架构,具有嵌入式音频处理器的麦克风和足够的内存以在2秒的循环缓冲区中连续捕获语音数据,例如知识IA611,是始终开启语音活动的可行选项检测。它还附带了一个移植语音触发器和命令的生态系统,例如亚马逊的alexa。当检测到关键字时,将预滚动缓冲区和发出的语音音频都发送到云自动语音识别(ASR)引擎。 IA611的始终如一,声音唤醒力量为0.39 mA @电池1.8V和90%的效率,使其在蓝牙扬声器等电池供电设备中的语音用户界面是一个很好的选择。该设备还接受从数字麦克风输入的PDM输入,并且可以通过在系统唤醒时通过音频通过音频来支持主机BT-SOC处理器上的波束成形。

虽然这种始终开启的电力是可接受的预滚动应用,但也值得考虑非预卷架构,如图1所示。如前所述,模拟唤醒麦克风将触发任何传入的声音并打开音频处理器。这在嘈杂的环境中可能存在问题,例如当电视打开时,在那里将有许多虚假的奶粉,导致力量的显着浪费。如果使用语音活动检测而不是低功耗模拟唤醒麦克风,则系统仅在检测到关键字时打开。它是逻辑看,看出为什么使用语音活动检测麦克风可能比嘈杂环境中的简单模拟唤醒麦克风更有效。

图3显示了使用IA611上的VAD对典型电视遥控器的电池寿命的天数与竞争压电低功耗AAD麦克风和音频处理器的仿真数据进行比较,可按时改变声学活动的持续时间。当电视或其他家用电器在图3中看到的电视或其他家用电器等时或在其他情况下,可以存在声学活动,但如图3所示,在大约3小时内有交叉点,由此使用模拟AAD的功率优势在竞争对手的麦克风VS中,IA611上的语音活动检测消失。

在5小时的声学活动时,语音活动检测解决方案在竞争的AAD的解决方案中提供八天的电池寿命。为了使这个优势在背景下,美国成年人每天观看近八个小时的电视电视,根据2017年的尼尔森研究。随着对互联网连接设备的需求不断增加,例如智能电视,游戏机和其他多媒体设备,典型的美国家庭中的数小时的声学活动也可能继续上升。基于智能VAD的唤醒将帮助系统设计人员开发更多功率高效的VUI系统。

诺尔斯图3  - 总是在Vad上
图3. VAD VS AAD遥控电池寿命。

结论

从智能家居,酒店,数字工作场所,语音支付,智能能源管理,声音在边缘和医疗保健,一直到工业的IOT应用程序改变厂房,声音增加了灵活性,效率,可持续性和采用新技术的接受。

各种硬件架构,用于设计语音用户界面,以及麦克风部分,每个都需要略有不同的需求,具体取决于终端设备的应用程序和设计者偏好;例如,启用Alexa的设备和智能扬声器需要预滚动缓冲的架构。

重要的是,电子工程师和设计人员仔细评估了最终设备如何利用语音,他们希望访问的功能,以及从那里开始,相应地确定正确的架构和麦克风组件。


raj senguttuvan  - 诺尔斯

raj senguttuvan. 拥有超过15年的消费者和工业应用的新技术开发经验,早期的业务发展,以及模拟设备和德州仪器等公司的项目管理。在他作为董事的角色,他指导系统级开发,推动风险投资和合作伙伴关系,以及IOT和消费者技术的营销策略,包括音频处理器,算法,麦克风,传感器和接收器。 Raj持有康奈尔大学的MBA,以及来自佐治亚理工学院的电气工程博士学位。


相关内容:

更嵌入, 订阅嵌入式’S每周电子邮件时事通讯.

发表评论

本网站使用AkisMet减少垃圾邮件。 了解如何处理评论数据.

发布时间: 2021-05-13 13:32:25

最近发表