語音控制IC低功耗微控制器(MCU)的語音控制,什么構成了良好的語音控制解決方案,語音用戶界面 (VUI) 使人類能夠使用語音與機器通信
在本文中,我們將討論在低功耗和資源受限的微控制器單元 (MCU) 上部署語音控制的原因和方式,以及將其轉化為現實世界的應用。
但首先,讓我們定義幾個核心概念——人機界面 (HCI)、語音用戶界面和語音控制:
- 人機界面 (HCI) 是一個定義明確的概念,可以描述為人類用戶和計算機之間的通信點。通信通道分類可以基于人類的許多感官:視覺、聽覺、觸覺等。
- 語音用戶界面 (VUI) 使人類能夠使用語音與機器通信。機器可以采用某種形式的語音識別將人類語音轉換為命令和查詢。
- 語音控制是 VUI 的一種實現,允許人類使用簡單、簡潔的命令來操作設備或電器。
應廣單片機語音控制IC芯片的特點:
1.高性能:采用高性能的處理器和算法。
2.低成本:的價格非常實惠,相比其他品牌的單片機芯片,具有更高的性價比。
3.易用性:編程語言簡單易學。
4.語音識別:具有高效的語音識別功能,可以識別用戶的語音指令,從而實現智能化的控制。
5.語音提示:可以通過芯片內置的音頻放大器播放提示音,使用戶了解設備的工作狀態和相關信息。
6.語音回放:可以將用戶的聲音錄制下來并存儲在芯片中,以便在需要時進行回放。
7.ADC性能:應廣單片機語音控制IC芯片內置高性能的ADC(模數轉換器),可以將模擬信號轉換為數字信號,方便處理器進行處理。
8.OTP燒錄芯片:應廣單片機語音控制IC芯片支持OTP(一次性可編程)燒錄芯片,可以將程序代碼和數據燒錄到芯片中,從而避免重復燒錄和數據泄露的風險。
VUI 已經存在了幾年,近年來由于 Amazon Echo、Google Home、Apple Home Pod 等設備及其相關語音助手也部署在智能手機、電視、汽車和其他設備上而變得非常流行。這些設備中的大多數依賴于復雜的、基于云的語音識別引擎。這些引擎處理復雜的人類語音,允許用戶使用自然語言與機器交互。
然而,這些能力伴隨著(多方面的)代價,首先是用戶隱私受到損害,因為用戶查詢被上傳到云端進行處理,并在那里存儲不同時間長度(從幾小時到幾個月,取決于服務供應商)。此外,設備必須連接到云才能運行,而云上的處理通常耗能且速度較慢,這反過來又使設備 BOM 成本飆升,因為必須將相對復雜的連接硬件集成到設備中,這通常會導致重大的設計修改。
在許多用例中,通過在電池供電、資源受限、離線、支持 MCU 的設備上部署小型、任務優化的語音控制引擎,可以降低功能齊全的基于云的語音助手的價格。由小型專用 VUI 引擎驅動的語音控制可以在簡單的基于 MCU 的硬件模塊上實現,作為現有控件(旋鈕、按鈕、觸摸屏等)的直接替代品。當然,這種解決方案的功能存在局限性,但正如我們即將看到的那樣,對于許多任務和用例,這些局限性被其優勢所掩蓋。
MCU 語音控制實現的主要限制是,它們通常具有詞匯支持有限的特點——只能識別一小部分單詞,用戶必須記住這些單詞才能正確操作設備。換句話說,用戶不能使用自然語言,而是必須使用支持的單詞和命令來提出請求。例如,配置為檢測命令“下一首歌曲”或甚至只是“下一首”的系統可能無法識別“播放下一首歌曲”。
這種限制有一個好處——簡單。使用簡短、簡潔的命令,大大降低了設備由于環境噪音或其他干擾而“誤解”命令的風險。當考慮到 MCU 上的語音控制旨在處理的任務時,這一點變得非常明顯。
讓我們回顧一些用例。
語音控制IC應用的領域
大型電器
許多具有按鈕\旋鈕\觸摸界面的大型電器也用臟手或濕手操作(烤箱、灶具、洗衣機、洗碗機)。部署在 MCU 驅動的硬件模塊上的語音控制對于保持電器清潔和易于操作非常有用(您是否曾嘗試用濕手指操作觸摸界面?)。從制造的角度來看,部署在批量生產的 MCU 驅動的硬件模塊上的語音控制可以作為現有按鈕、旋鈕和觸摸界面的直接替代品,集成成本最低。
機器人吸塵器
機器人吸塵器 (RVC) 可以獨立運行或通過遙控器運行(遙控器總是會丟失……)。 MCU 語音控制模塊僅支持幾個命令(“清潔廚房”、“停止”、“充電”),可以顯著改善用戶體驗,對 BOM 和成本的影響很小,同時性能優于基于云的語音助手,后者在嘈雜的環境和短命令方面往往存在困難。
公共亭和自動售貨機
隨著 Covid-19 的出現,衛生問題成為主要關注點,尤其是在公共領域。 MCU 語音控制模塊可以提供一種有效、低成本的選擇,以升級現有的滿足公共衛生需求的機器。 支持的命令可以顯示\打印在設備上,以緩解對自然語言支持的不足,同時降低錯誤率。
可穿戴設備、可聽設備和其他微型設備(TWS 和助聽器)
此類設備的特點是電源有限(電池小,無法實現持續的云連接)、計算資源有限(無法實現大詞匯量語音識別引擎)和表面空間有限(按鈕和點擊界面不方便),這使得 MCU 電源語音控制成為理想的解決方案。
帶語音控制的紅外遙控器(用于電視、家庭娛樂和 HVAC 系統)
遙控器是操作電視、家庭娛樂系統、空調系統、吊扇和任何觸手可及的設備的首選界面。在遙控器上添加設備上的 VUI 可以實現更好的個性化(例如,通過揚聲器驗證,Netflix 等智能電視應用程序可以通過用戶的個人資料啟動),還可以解決“尋找遙控器”的麻煩。售后通用語音控制遙控器可以為舊系統提供輕松升級。
什么構成了良好的語音控制解決方案?
MCU 驅動的語音控制解決方案必須解決一些關鍵挑戰,才能被視為現有界面(旋鈕、按鈕、觸摸)的高效、有效和可靠的替代方案:
服務質量 - 語音控制引擎“理解”(正確檢測)發出的命令或單詞的概率。存在兩種類型的錯誤 - 錯誤接受和錯誤拒絕。用戶對每種錯誤類型的敏感度可能因用例而異,并且必須相應地調整語音控制引擎。一般來說,用戶期望真實接受率為 95% 或更高,并且每 24 小時錯誤接受不超過 1 次。換句話說,VUI 性能應該使得用戶不會費心去拿遙控器或按鈕。
噪聲魯棒性 - 能夠在嘈雜的環境中為前面審查的所有情況提供高質量的檢測(有些是噪聲源)。良好的 VUI 實現預計僅在 SNR 水平低于 5db 時才會出現可察覺的性能下降。
功率和計算要求——這些對于確定候選實現是否適合用例至關重要。對于電池供電的實現,功耗應在毫瓦范圍內。這樣的 VUI 實現應該能夠在 Cortex-M0+ 或類似的 MCU 上運行,消耗的電量小于 50MCPS 和 80KB 內存。
安全性——MCU 語音控制解決方案可能需要/需要選擇性地響應特定實體發出的命令。這可以通過集成到系統中的說話人驗證技術來實現。
MCU 的 VUI 實現挑戰
構建具有競爭力的 VUI 引擎是一場平衡多個(通常是相反的)約束的游戲:
- 服務質量(真實接受率與每小時錯誤接受率)
- 對噪聲的魯棒性
- 對混響的魯棒性
- 極其有限的計算和內存資源
- 對口音的魯棒性
- 數據采集成本
在深度學習研究中,提高模型性能的常用方法是增加模型復雜性和訓練數據量。這些技術不適用于“現實世界”,因為現實世界的目標是以經濟的方式(數據采集資源有限)構建針對資源非常有限的 MCU 的模型(本例中為 VUI 引擎)(模型復雜度必須保持在最低限度)。
不同約束帶來的壓力意味著需要分析不同的模型尺寸縮減技術和旨在充分利用有限數據采集資源的高級數據工程方法。可以部署后處理量化和量化感知訓練、結構化和非結構化修剪、低秩近似和稀疏性以及知識提煉等技術。雖然這些技術可以減少計算和內存占用,但模型性能仍然需要考慮:
- 多種音頻信號處理技術
- 多種特征提取技術
- 從 CNN 到 RNN 和 Transer 的不同模型架構
- 從有效和高效的數據收集程序到數據增強和噪聲混合參數的各種音頻數據工程方法
最后,當實現令人滿意的模型架構、數據采集和訓練方案時,仍然需要克服許多實施挑戰:
- 代碼可移植性和可維護性
- 高性能和高精度定點算法
- 多平臺優化
- API 簡單性和可用性
CEVA WhisPro 是一種基于神經網絡的語音識別技術,旨在開發以語音為主要人機界面的產品。WhisPro 擴展了 CEVA 的智能聲音 IP 產品組合,為開發人員提供了基于云或邊緣語音控制設備的整體解決方案。
結論
有效的 VUI 引擎(例如 CEVA 的 WhisPro 語音控制技術)是我們將語音用作智能云服務和邊緣設備的主要人機界面的關鍵部分。語音識別模型需要具有較高的識別率。固有的 AI 技術應支持各種用例和語言的一系列命令,而不會影響功率或計算要求。最后,為了阻止未經授權使用語音激活設備,必須具備諸如說話人驗證之類的安全功能。