【導讀】語音識別是設備對語音命令做出響應的能力,它實現(xiàn)了對各種設備的免提控制。該技術最早的應用是自動電話系統(tǒng)和醫(yī)療聽寫軟件?,F(xiàn)在,在汽車和智能手機中語音識別技術有了更廣泛的應用,比如蘋果的Siri和特斯拉汽車中的語音命令都采用了先進的語音識別技術。
語音識別是設備對語音命令做出響應的能力,它實現(xiàn)了對各種設備的免提控制。該技術最早的應用是自動電話系統(tǒng)和醫(yī)療聽寫軟件?,F(xiàn)在,在汽車和智能手機中語音識別技術有了更廣泛的應用,比如蘋果的Siri和特斯拉汽車中的語音命令都采用了先進的語音識別技術。
在汽車中,語音助手的非常大好處是,它可以讓駕駛員的眼睛始終盯著道路,而手一直放在方向盤上,同時還能獲得安全且免提的車內體驗,包括接打電話、選擇電臺、設置導航或播放音樂等?,F(xiàn)在,車載語音助手已成為大多數(shù)車輛的標準功能。
汽車語音助手的興起
汽車語音助手是一種語音識別控制系統(tǒng),它允許駕駛員用語音控制車輛的功能和特征,比如用于車輛的氣候控制、娛樂設置、導航和其他功能,還可用于免提通話和發(fā)送短信。
本田是最早在汽車中使用語音識別技術的汽車制造商之一,該公司于2004年提供了一種語音導航系統(tǒng),主要用于音頻、DVD和車內環(huán)境控制的語音命令和控制功能。隨著時間的推移,汽車中的語音識別技術有了較大改進,如今,汽車中的語音識別技術已經(jīng)能夠準確解釋駕駛員的命令并執(zhí)行較復雜的操作。
早在2022年3月,大眾汽車就已選擇將Cerence公司的語音AI Cerence Drive 2.0系統(tǒng)集成到大眾高爾夫8 GTI中,所使用的Cerence Drive 2.0系統(tǒng)于2021年推出,它將自然語言理解和文本到語音技術等功能整合到一個堆棧中,使得汽車語音識別系統(tǒng)有了較高的響應速度。Siri、Alexa、Maluuba和Cotana等虛擬語音助手的日益普及,為我們的生活提供了便利,人們也因此更加習慣通過語音進行車內控制的各種新興應用。自動駕駛汽車的出現(xiàn)更是有力推動了汽車語音識別系統(tǒng)的發(fā)展。
根據(jù)Precedence research的數(shù)據(jù),2023年,全球汽車語音識別系統(tǒng)市場價值為28.9億美元,預計到2032年將超過約111.7億美元,在2023年至2032年的預測期內,復合年增長率將達到16.20%。
目前,語音識別系統(tǒng)市場的市場參與者正在大力投資生物識別和人工智能技術,在未來幾年將為汽車識別系統(tǒng)市場提供更多增長機會。
2022年至2032年汽車語音識別系統(tǒng)市場發(fā)展趨勢
(圖源:Precedence research)
來自Vynz research的分析結果表明,2023年,汽車語音識別市場的價值為28.1億美元,預計到2030年將達到68.7億美元,在2025年至2030年的預測期內的復合年增長率為16.41%。
汽車創(chuàng)新中的語音識別技術
近年來,語音識別技術徹底改變了消費者與汽車的互動方式,從個性化的語音交互到提高安全性和整體用戶體驗的免提操作,語音技術已成為推動汽車創(chuàng)新的催化劑。
特斯拉(Tesla)基于上下文的語音命令的實現(xiàn)代表著汽車語音識別技術在應用上有了重大突破,這項技術可以讓用戶更直觀地與他們的Tesla汽車進行互動。
例如,用戶可以直接說出自己的目的地,車輛就會為你規(guī)劃出行車路線圖,簡化了導航過程。此外,該系統(tǒng)還能夠理解先前命令的上下文,具備復雜的自然語言理解能力,比如通過語音調整車內溫度設置。這一能力展現(xiàn)出增強車載語音控制系統(tǒng)的潛力,也證明了投資先進語音識別技術的重要性。
對于車載語音助手來說,獲得準確而清晰的語音信號始終是一個重大挑戰(zhàn)。道路和風噪以及多個人使用語音設備可能會干擾語音識別的準確率。目前的車載語音識別系統(tǒng)大多使用了波束成形技術,該技術使用一維“到達方向”參數(shù)對聲音場景進行建模。
然而,在汽車等封閉空間中,聲波往往會從窗戶和面板上反彈,因此,在建模之前還需要部署一個麥克風陣列用來接收從數(shù)百個方向到達的語音信號。如今,語音識別的準確性已經(jīng)顯著提高,在包含數(shù)萬個單詞的詞匯表中,錯誤率可降至5%左右。
語音控制為控制現(xiàn)代汽車上復雜人機接口(HMI)功能提供了一種安全方便的解決方案。開發(fā)人員利用機器學習 (ML) 和語音建模的強大功能,使用定制命令和多個喚醒詞將本地語音控制功能添加到汽車語音助手等應用中。
NXP擁有一系列語音控制和通信軟件和系統(tǒng)解決方案,為人對人和人對機器的語音應用提供高質量、可靠的嵌入式語音處理。其產品組合中的新成員——智能語音技術 (VIT),是一種全面的先進語音控制軟件解決方案,可作為MCUXpresso軟件開發(fā)套件 (SDK) 中的現(xiàn)成軟件庫。VIT軟件基于先進的深度學習和語音識別技術,提供了完整的遠場音頻前端(AFE),支持多達三個麥克風、一個始終開啟的喚醒詞引擎和一個語音命令引擎,以及生成客戶定義的喚醒詞和語音命令模型的在線工具。
如前所述,實現(xiàn)可靠的設備端語音控制并不是一件容易的事,開發(fā)人員還需要選擇高性能信號處理硬件平臺以及相應的語音處理軟件,包括AFE波束成形器、單獨的喚醒詞引擎和語音命令引擎等。VIT軟件可在基于Arm Cortex-M7和M33、Cadence Xtensa HiFi4和Fusion F1內核的NXP i.MX邊緣處理平臺上使用。目前,支持VIT的i.MX 跨界MCU平臺包括:
? i.MX RT500 MCU(配備M33、DSP和GPU內核)
? i.MX RT600 MCU(配備M33和DSP內核)
? i.MX RT1060 MCU(配備M7內核)
? i.MX RT1160 MCU(配備M7和M4內核)
? i.MX RT1170 MCU,搭載1 GHz MCU(配備M7和M4內核)
其中,i.MX RT500跨界MCU是雙核微控制器,采用Arm Cortex-M33核和Cadence Xtensa Fusion F1 DSP,專為低功耗應用而設計。i.MX RT500 Cortex-M33內核的運行頻率高達275MHz,包括兩個協(xié)處理器,可提供更高的性能。Fusion DSP的運行頻率高達275MHz。該系列提供豐富的外設、嵌入式安全性和超低功耗,具有高達5MB SRAM和兩個FlexSPI,每個FlexSPI具有32KB緩存。
另一款i.MX RT1170跨界MCU集成了Arm Cortex-M7和Arm Cortex-M4內核,具有實時性能和高度集成。i.MX RT1170 Cortex-M7的運行頻率高達1GHz,Cortex-M4的運行頻率達到400MHz,同時具有2MB片上RAM。
這款實時MCU提供各種存儲器接口和豐富的連接接口,包括3個支持TSN/AVB技術的高速以太網(wǎng)接口以及UART、SPI、I2C、USB和3個CAN-FD接口。此外,i.MX RT1170還增強了內置安全,包括安全啟動和加密引擎。
支持VIT軟件的NXP i.MX RT1170跨界MCU系統(tǒng)框圖(圖源:NXP)
汽車語音識別技術的四大挑戰(zhàn)
語音識別技術已經(jīng)存在很長時間了,盡管汽車語音助手的受歡迎程度穩(wěn)步上升,但在實施和開發(fā)語音識別技術時我們很可能遇到以下四個挑戰(zhàn):
1. 準確性的挑戰(zhàn)
語音識別系統(tǒng)(SRS)的準確性必須很高才具有實用和商業(yè)價值。根據(jù)近期的一項調查,73%的受訪者聲稱準確性不高是采用語音識別技術的主要障礙。在試圖提高語音識別模型的準確性時,背景噪聲帶來的影響非常大。
解決方法可以從三個方面入手:一是在開發(fā)模型之前了解用戶的使用環(huán)境,然后選擇一個聲源方向性好的麥克風;二是利用線性降噪濾波器如高斯濾波器來平抑噪聲;三是構建一個去噪算法,以便在輸入/輸出聲音時對信號進行平滑處理。
2. 語言、口音和方言覆蓋率的挑戰(zhàn)
目前,沒有一種SRS可以覆蓋所有的語言、方言和口音??朔@一挑戰(zhàn)的一個有效方法是擴展數(shù)據(jù)集。只有足夠多的數(shù)據(jù)集才能為SRS提供AI/ML模型訓練。
3. 數(shù)據(jù)隱私和安全的挑戰(zhàn)
人的語音記錄可以被用作他們的生物特征數(shù)據(jù)。因此,許多人對使用語音識別技術持猶豫不決的態(tài)度。這個問題目前沒有更好的解決辦法,企業(yè)唯一能做的就是盡可能保持應用的透明度,并允許用戶通過設置選項來限制數(shù)據(jù)收集。
4. 成本和部署的挑戰(zhàn)
開發(fā)和實施SRS是一個成本高昂且持續(xù)不斷的過程。如果SRS需要覆蓋各種語言、口音和方言,則需要訓練一個大型數(shù)據(jù)集。在此過程中,數(shù)據(jù)收集過程需要大量的資金,訓練模型需要有強大的算力支持,高質量的麥克風價格非常昂貴。隨著汽車語音識別系統(tǒng)市場需求的不斷上升,預計語音識別系統(tǒng)的價格在未來會逐步下降。
未來展望
Capgemini Research Institute 的研究數(shù)據(jù)顯示,2022年,77%的消費者使用了汽車語音助手進行娛樂和導航,超過60%在駕駛時使用過語音助手的人在購買決策中考慮了汽車語音助手的可用性。
語音人工智能(AI)的崛起使得汽車變得更加自主、更加個性化,消費者對使用語音人工智能來提高駕駛體驗的興趣越來越大。目前,語音控制系統(tǒng)大多是一套基本的命令。當對話式人工智能出現(xiàn)后,這些系統(tǒng)將能夠理解多種形式的對話,并與用戶之間開展多功能的和自然的互動。其中,精確的語音交互技術將是技術改進的重點。一個高集成度、功能齊全的汽車語音助手可以提供準確的語音識別,有助于實現(xiàn)汽車語音識別從小眾到廣泛采用的轉變。
將ChatGPT集成到梅賽德斯-奔馳汽車公司的車輛中是汽車行業(yè)使用語音技術的重大進步。數(shù)字語音助手為制造商提供了一個增強用戶體驗的機會,并根據(jù)駕駛員的要求為新的服務和收入機會提供了平臺。預計到2028年,全球銷售的新車中將有近90%搭載語音助手。
汽車行業(yè)一直是專利創(chuàng)新的熱土?;ヂ?lián)汽車的興起、人工智能(AI)、機器學習(ML)和自然語言處理(NLP)等技術的日益完善,進一步推動了汽車領域的創(chuàng)新活動。Global Data在關于汽車創(chuàng)新的報告中指出,僅在過去三年,汽車行業(yè)就有超過170萬項專利申請和授權。語音技術的進步為汽車行業(yè)改善用戶的駕駛體驗開辟了新的機會。從個性化語音交互到免提操作,語音技術已成為汽車創(chuàng)新的關鍵要素。
文章來源:貿澤電子
免責聲明:本文為轉載文章,轉載此文目的在于傳遞更多信息,版權歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權問題,請聯(lián)系小編進行處理。
推薦閱讀:
意法半導體碳化硅數(shù)位電源解決方案被肯微科技采用于服務器電源供應器設計及應用
開展倒計時8天|CITE2024邀您打卡開年深圳首個電子信息展
利用雙MOSFET最大限度地提高開關轉換器應用的功率密度和性能