新聞資訊
NEWS & INFORMATION
智能音箱里那些神秘的聲學(xué)技術(shù)
時(shí)間:
2016-01-15
作者:
分類(lèi):
企業(yè)新聞
音箱行業(yè)有著悠久的歷史,但是在過(guò)去十多年里,傳統(tǒng)的音箱行業(yè)面臨著極大的市場(chǎng)困境,例如藍(lán)牙音箱剛出現(xiàn)各個(gè)廠商便直接殺成了一片紅海。而2015年隨著智能音箱的涌現(xiàn),特別是亞馬遜的Echo、京東的叮咚、阿里的小飛,不僅對(duì)外展現(xiàn)出了智能音箱行業(yè)百花齊放的局面,也使沉悶的音箱市場(chǎng)看到了突破性發(fā)展的希望。但是,隨著這些巨頭們的集體涌入,這也讓在智能音箱行業(yè)摸爬滾打的創(chuàng)業(yè)者倍感艱難。
音箱特別是中高端音箱,本來(lái)就是強(qiáng)調(diào)品牌且技術(shù)門(mén)檻較高的領(lǐng)域。而智能音箱將聲學(xué)設(shè)計(jì)、無(wú)線技術(shù)、語(yǔ)音識(shí)別、遠(yuǎn)場(chǎng)拾音、語(yǔ)義分析等眾多技術(shù)融合在一起,不僅技術(shù)更為復(fù)雜,而且更加依賴(lài)音樂(lè)內(nèi)容平臺(tái)的支持,這些諸多因素都是創(chuàng)業(yè)者需要直面解決的難題。當(dāng)然,技術(shù)還是其中的根本,本文希望從市面上現(xiàn)有的流行產(chǎn)品分析其中的幾項(xiàng)關(guān)鍵技術(shù),以及一些不可規(guī)避的用戶(hù)體驗(yàn)問(wèn)題,也給正在創(chuàng)業(yè)或者準(zhǔn)備進(jìn)入這個(gè)領(lǐng)域的創(chuàng)業(yè)者一些參考。
(1)小型便攜與低音增強(qiáng)技術(shù)
音箱行業(yè)早在數(shù)年前就開(kāi)始流行小型便攜化,最具代表性的就是藍(lán)牙音箱的持續(xù)熱銷(xiāo)。隨后的WiFi音箱并沒(méi)有復(fù)制藍(lán)牙音箱的奇跡,主要還是受制于內(nèi)容平臺(tái)和技術(shù)的缺陷,并沒(méi)有帶來(lái)比藍(lán)牙音箱更好的用戶(hù)體驗(yàn)。智能音箱實(shí)際上還是在WiFi音箱的基礎(chǔ)上發(fā)展的,除了繼承其小型便攜和無(wú)線連接的特點(diǎn),其本質(zhì)畢竟還是音箱,其音質(zhì)設(shè)計(jì)還應(yīng)該是第一位的。但是現(xiàn)在看來(lái),市面上的智能音箱基本都忽略了這個(gè)問(wèn)題,在筆者看來(lái),目前還沒(méi)有音質(zhì)上乘的智能音箱出現(xiàn)。反而銷(xiāo)量并不理想的WiFi音箱更加專(zhuān)注于音質(zhì)設(shè)計(jì),這其中不乏有傳統(tǒng)的消費(fèi)級(jí)音箱巨頭Bose、JBL和Sony等品牌,也逐漸形成了兩大風(fēng)格派系。以Bose為代表的歐美系更加注重低音的增強(qiáng)體驗(yàn),而以Sony為代表的日系則尤為看重中高頻的細(xì)節(jié)呈現(xiàn)。我們知道小型箱體設(shè)計(jì)中很難同時(shí)兼具中高頻和低頻的雙重音質(zhì)保證,而對(duì)于大部分消費(fèi)用戶(hù)來(lái)說(shuō),感受最為明顯的則是低音的提升,這也是小型箱體設(shè)計(jì)中的技術(shù)難點(diǎn)。
小型箱體的低音增強(qiáng)主要有兩類(lèi)方法:其一是箱體的結(jié)構(gòu)設(shè)計(jì),例如結(jié)構(gòu)上可采用密封式、倒相式、迷宮式、聲波管式和多腔諧振式等等,這些結(jié)構(gòu)需要專(zhuān)業(yè)計(jì)算確定,適當(dāng)?shù)脑O(shè)計(jì)可以有效提升音箱的音質(zhì)和低音效果。
另外,音箱結(jié)構(gòu)設(shè)計(jì)中還包括了被動(dòng)振膜技術(shù)。通常來(lái)說(shuō)小型箱體比如智能音箱一般常用3寸以下的喇叭,這種喇叭本身低頻下潛就不是太好,至少也要在100Hz以上。但是小型音箱受制于體積也無(wú)法采用更大的喇叭,而被動(dòng)振膜的出現(xiàn)就是為了更好的彌補(bǔ)這個(gè)缺陷。實(shí)際上,被動(dòng)振膜的結(jié)構(gòu)與喇叭有幾分相似之處,都有推動(dòng)空氣的振膜和讓振膜恢復(fù)正常位置所需要的折環(huán)。但不同的是,被動(dòng)振膜沒(méi)有喇叭那類(lèi)驅(qū)動(dòng)機(jī)構(gòu),也就是說(shuō),它自身并不能發(fā)出聲音。那么,被動(dòng)振膜是如何工作的?由于被動(dòng)振膜和喇叭單元是安裝在密封的箱體內(nèi),這樣,當(dāng)喇叭工作發(fā)出聲音時(shí),喇叭振膜的運(yùn)動(dòng),會(huì)導(dǎo)致箱體內(nèi)的空氣被壓縮和擴(kuò)展,在氣壓變化的作用下,被動(dòng)振膜也伴隨產(chǎn)生振動(dòng),推動(dòng)箱體外的空氣,這樣就可以發(fā)出聲音來(lái)。被動(dòng)振膜可以根據(jù)需求設(shè)計(jì)在音箱的不同位置,其振動(dòng)面積往往可以做得比較大。這樣,推動(dòng)空氣的體積也隨之增加,這就大大提升了低音的量感,獲得更好的低音下潛深度。
其二是算法方面的低音增強(qiáng),比如常用的虛擬低音增強(qiáng)技術(shù)。虛擬低音增強(qiáng)的原理是采用了人耳的生理學(xué)特點(diǎn)來(lái)虛擬低音效果,人耳能夠把低音基頻中高頻段諧波的差頻聲音聽(tīng)成原來(lái)低音基頻的音調(diào),這就給我們實(shí)現(xiàn)虛擬低音提供了理論基礎(chǔ)。通過(guò)低音信號(hào)基頻的諧波序列在人耳中再現(xiàn)普通揚(yáng)聲器無(wú)法達(dá)到的低頻音調(diào),從而在聽(tīng)感上就會(huì)讓人覺(jué)得低音分量更足了,有效彌補(bǔ)了小口徑揚(yáng)聲器重放低頻不足的問(wèn)題。這種虛擬低音增強(qiáng)方法也是耳機(jī)中常用的低音增強(qiáng)方法,特點(diǎn)是只需要嵌入特定算法,在播放前對(duì)音頻處理即可
(2)無(wú)線技術(shù)及聲音對(duì)碼技術(shù)
前面提到,智能音箱是由WiFi音箱發(fā)展而來(lái),因此無(wú)線技術(shù)特別是WiFi的連接尤為重要,但是我們也知道,WiFi連接的過(guò)程比較復(fù)雜,連接成功后也會(huì)經(jīng)常出現(xiàn)掉線、堵塞、延遲較大、切換太慢等問(wèn)題,而這些都是導(dǎo)致WiFi音箱體驗(yàn)較差的重要因素。另外智能音箱一般還是黑盒子產(chǎn)品,通常不安裝觸摸操作屏,而WiFi初始連接則要求用戶(hù)選擇網(wǎng)絡(luò)、輸入用戶(hù)和密碼等操作,這顯然不是智能音箱的特長(zhǎng)??墒侨魺o(wú)法聯(lián)網(wǎng),那么智能音箱的語(yǔ)音識(shí)別也無(wú)法發(fā)揮作用,這反而成了一個(gè)場(chǎng)景悖論。那么有什么技術(shù)可以解決上述的這些問(wèn)題呢?
首先我們看WiFi的初始連接問(wèn)題,這如同當(dāng)初的路由器配置一樣麻煩,何況大部分用戶(hù)根本沒(méi)有配置過(guò)路由器的經(jīng)驗(yàn),因此讓用戶(hù)按照配置路由器的邏輯去配置智能音箱顯然不現(xiàn)實(shí),但是目前很多產(chǎn)品其實(shí)就是這種模態(tài),就連智能音箱中的翹楚——亞馬遜Echo,也是如此。配置路由器,一個(gè)熟知技術(shù)的人員尚且還要折騰一段時(shí)間,把如此復(fù)雜的產(chǎn)品甩給用戶(hù)簡(jiǎn)直就是一種折磨!
聲學(xué)總是這么奇妙,對(duì)此,聰明的聲學(xué)研究人員早就找到了應(yīng)對(duì)方法:聲波通訊對(duì)碼技術(shù)。這種技術(shù)是利用聲波調(diào)制技術(shù),將WiFi連接需要的信息通過(guò)手機(jī)的喇叭發(fā)送到智能音箱上,利用智能音箱本身配置的麥克風(fēng)接收聲音信號(hào)進(jìn)行解調(diào)獲取信息,從而完成配置聯(lián)網(wǎng),用戶(hù)僅僅需要在手機(jī)屏幕上輸入信息即可,這成功解決了智能音箱缺乏屏幕顯示和操控的問(wèn)題。聲音對(duì)碼技術(shù)難度實(shí)際不是太大,但是要做的穩(wěn)定可靠也需要長(zhǎng)時(shí)間積累,這個(gè)領(lǐng)域目前市場(chǎng)上幾乎沒(méi)有成熟的方案,據(jù)說(shuō)小聲科技公司正在準(zhǔn)備這項(xiàng)技術(shù)的開(kāi)源工作,相信不久這項(xiàng)技術(shù)也將很快普及。
下面接著再說(shuō)WiFi的切換及延遲問(wèn)題,除了在硬件和協(xié)議上做些優(yōu)化,也可以通過(guò)聲學(xué)方法進(jìn)一步優(yōu)化。我們知道大部分WiFi音頻傳遞的都是解碼后的音頻流,這很容易造成丟幀現(xiàn)象,其實(shí)傳輸過(guò)程中少量丟幀對(duì)語(yǔ)音甚至音樂(lè)播放來(lái)說(shuō)影響并不大,因此這可以采用一定的算法進(jìn)行適配。另外,隨著智能音箱浮點(diǎn)運(yùn)算能力的加強(qiáng),我們也可以考慮傳遞編碼的音頻文件流,當(dāng)編碼的時(shí)候就將WiFi的問(wèn)題考慮進(jìn)去提前做出冗余,自然會(huì)大幅提高WiFi方面的性能。
(3)遠(yuǎn)場(chǎng)語(yǔ)音喚醒和識(shí)別技術(shù)
“Alexa”,這是激活Echo音箱的默認(rèn)喚醒詞,而“叮咚”這是激活京東叮咚音箱的喚醒詞。那么為什么音箱需要這種專(zhuān)用詞語(yǔ)喚醒呢?實(shí)際上這也是語(yǔ)音識(shí)別中的技術(shù)難題,有時(shí)候也稱(chēng)為語(yǔ)音識(shí)別啟動(dòng)特定詞。我們知道如果要想識(shí)別用戶(hù)說(shuō)出的命令,麥克風(fēng)必須一直在錄音狀態(tài),并且語(yǔ)音識(shí)別算法也要一直在工作,這就是連續(xù)語(yǔ)音識(shí)別的基本前提。那么總要告知一下對(duì)方,什么時(shí)候才算開(kāi)始。當(dāng)然機(jī)器是非常愚笨的,一個(gè)眼神或者一個(gè)動(dòng)作顯然不可能引起“她”的注意,自然就需要定義一個(gè)特別適合切換進(jìn)入語(yǔ)音識(shí)別狀態(tài)的詞語(yǔ),我們稱(chēng)這種技術(shù)為語(yǔ)音喚醒,也就是把音箱從其他狀態(tài)切換到了語(yǔ)音識(shí)別工作狀態(tài)。
顯然上面提到的喚醒問(wèn)題在Siri上是使用觸摸按鍵來(lái)解決的,但是智能音箱就不行了,因?yàn)槲覀儾豢赡芸傇谝粝渑赃?,而一般都?huì)距離音箱一段距離欣賞音樂(lè)。這就產(chǎn)生了一個(gè)更加困難的問(wèn)題:遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別。遠(yuǎn)場(chǎng)實(shí)際是聲學(xué)領(lǐng)域常用的一個(gè)概念,一般在智能音箱領(lǐng)域來(lái)說(shuō)是指混響起主要作用的聲場(chǎng)。這個(gè)概念怎么解釋呢?這么說(shuō)吧,我們聽(tīng)到的聲音簡(jiǎn)單分為兩種,一種是直接到達(dá)耳朵的,稱(chēng)為直達(dá)聲。另外一種是墻壁反射后到達(dá)耳朵的,稱(chēng)為反射聲,亂七八糟混在一起的聲場(chǎng)就理解為混響聲吧。顯然當(dāng)距離聲源較近的時(shí)候,直達(dá)聲將起主要作用,而當(dāng)距離聲源較遠(yuǎn)以后,混響的影響就會(huì)增大。不要輕視這種混響,當(dāng)混響嚴(yán)重到一定程度的時(shí)候,我們是很難聽(tīng)清對(duì)方說(shuō)話(huà)的。事實(shí)上,混響對(duì)于語(yǔ)音識(shí)別的影響是非常嚴(yán)重的,直接導(dǎo)致了識(shí)別率的下降。
那怎么解決這個(gè)問(wèn)題呢?當(dāng)然我們也有主動(dòng)和被動(dòng)兩種方法。主動(dòng)的方法我們這里先暫且賣(mài)個(gè)官司,請(qǐng)您關(guān)注聲學(xué)在線的后續(xù)文章,我們會(huì)詳細(xì)介紹。下面我們來(lái)說(shuō)被動(dòng)的方法,就是我們常常說(shuō)到的麥克風(fēng)陣列技術(shù),麥克風(fēng)陣列的具體技術(shù)我們這里也不再贅述,聲學(xué)在線已經(jīng)發(fā)布了很多相關(guān)文章,您可以重溫回憶一下。這里我們只說(shuō)下麥克風(fēng)陣列的技術(shù)難點(diǎn)。當(dāng)然很多同學(xué)會(huì)首先想到算法的問(wèn)題,多個(gè)麥克風(fēng)協(xié)同工作確實(shí)是一個(gè)技術(shù)難點(diǎn)。另外,結(jié)構(gòu)設(shè)計(jì)和器件方面也是一直制約麥克風(fēng)陣列應(yīng)用普及的重要因素,之所以這項(xiàng)技術(shù)到現(xiàn)在才能實(shí)用,也是因?yàn)镸EMS技術(shù)很好的解決了目前麥克風(fēng)器件的一致性問(wèn)題。當(dāng)然多聲道的采集技術(shù)也是非常重要的基礎(chǔ)技術(shù)。
這部分筆者覺(jué)得對(duì)于智能音箱來(lái)說(shuō)極其重要,因此我們也拆解了市場(chǎng)上兩款流行的智能音箱做些麥克風(fēng)陣列方面的比較。
第一款就是亞馬遜的Echo音箱,下圖綠色圈中的地方就是7個(gè)麥克風(fēng)組成的陣列,型號(hào)是S10530090。Echo音箱并沒(méi)有采用多聲道采集處理芯片,而是用了4個(gè)立體聲ADC實(shí)現(xiàn)7個(gè)麥克風(fēng)聲音的采集,這款A(yù)DC型號(hào)是TI的TLV320ADC3101。顯然Echo將來(lái)還會(huì)有更好的遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別性能方面的提升。亞馬遜Echo使用的是自家的語(yǔ)音識(shí)別引擎,因此國(guó)內(nèi)使用的時(shí)候非常麻煩,需要連接到國(guó)外的服務(wù)器。
第二款便是京東的叮咚音箱,這款音箱采用了8個(gè)麥克風(fēng)和4個(gè)喇叭以PK亞馬遜的Echo,但實(shí)際上意義不大,這個(gè)口徑的情況下,8個(gè)麥克風(fēng)和7個(gè)麥克風(fēng)并沒(méi)有本質(zhì)上的區(qū)別,甚至4個(gè)也就夠用了。而且我們通過(guò)兩幅拆解圖對(duì)比就可以看到,叮咚所用的麥克風(fēng)顯然沒(méi)有像Echo那樣升級(jí)到MEMS,傳統(tǒng)駐極體麥克風(fēng)的一致性很難保證,這不利于陣列信號(hào)處理。叮咚采用的是CONEXANT科勝訊的CX20810-11Z芯片,這款芯片是4通道遠(yuǎn)場(chǎng)語(yǔ)音捕獲的ADC,專(zhuān)門(mén)用于語(yǔ)音識(shí)別,控制和網(wǎng)絡(luò)會(huì)議等,因此叮咚只需要兩片ADC即可實(shí)現(xiàn)對(duì)8個(gè)麥克風(fēng)的采集。很明顯,CONEXANT的芯片相比TI還是略遜一籌。不過(guò),即便有如此遜色之處,叮咚音箱也屬于國(guó)內(nèi)當(dāng)前水平較高的智能音箱。另外,叮咚采用的是科大訊飛的語(yǔ)音識(shí)別引擎,因此國(guó)內(nèi)使用起來(lái)特別方便。
(4)內(nèi)容集成與智能學(xué)習(xí)技術(shù)
智能音箱一開(kāi)始就被認(rèn)為是家庭互聯(lián)網(wǎng)的入口之一,各個(gè)巨頭搶占這個(gè)領(lǐng)域也有這方面的考慮,所以與智能家居的融合一直是智能音箱的使命之一。但是聲音似乎和控制系統(tǒng)相差甚遠(yuǎn),這方面的集成并非那么簡(jiǎn)單。智能音箱解決的僅僅是語(yǔ)音的識(shí)別問(wèn)題,而這個(gè)功能,手機(jī)和電視同樣也可以實(shí)現(xiàn),那么智能音箱還有什么優(yōu)勢(shì)呢?
筆者認(rèn)為亞馬遜的戰(zhàn)略考慮應(yīng)該更值得借鑒。誠(chéng)然,接入更多智能家居的控制功能自然是個(gè)好事,但智能家居還沒(méi)發(fā)展起來(lái),也不是用戶(hù)的剛需,目前來(lái)做這塊用戶(hù)似乎也不會(huì)買(mǎi)賬。亞馬遜的Echo除了和自身的音樂(lè)內(nèi)容匹配,最主要還是看重了Echo將來(lái)在音樂(lè)內(nèi)容方面的購(gòu)買(mǎi)功能,所以Shopping自然就成為了Echo最重要的使命。想想也是,一個(gè)公司做硬件不考慮賺錢(qián)怎么行,軟件可以隨著用戶(hù)數(shù)量的無(wú)限增加而將成本攤薄為零,但是硬件的成本是永遠(yuǎn)存在的啊。雖然目前還不了解京東有沒(méi)有這方面的考慮,但是自家沒(méi)有專(zhuān)有語(yǔ)音識(shí)別引擎,若想和自家產(chǎn)品無(wú)縫對(duì)接也非常困難。阿里就聰明很多,阿里做的小飛必然要和自家的音樂(lè)內(nèi)容緊密相連。其他的廠商如QQ音樂(lè)、百度音樂(lè)、酷狗音樂(lè)還未發(fā)布自家產(chǎn)品,酷狗筆者有所了解,他們的智能硬件之路走得相當(dāng)緩慢,現(xiàn)在轉(zhuǎn)去搞中國(guó)好聲音了。
除了內(nèi)容方面的集成,智能音箱還面臨一個(gè)更大的挑戰(zhàn)。我們仔細(xì)想一下,用戶(hù)對(duì)智能音箱的要求其實(shí)遠(yuǎn)非語(yǔ)音識(shí)別所能做到的那樣簡(jiǎn)單,顯然還需要深入的語(yǔ)言交互才行,而且這種交互還應(yīng)該是你日常生活中的場(chǎng)景。天哪,即便解決某個(gè)特定領(lǐng)域的語(yǔ)音交互就讓眾多科研人員心力交瘁了,更何況如此廣泛的領(lǐng)域。筆者一聽(tīng)到這個(gè)需求大腦幾乎就要爆掉,但是如果做不到這點(diǎn),怎么又能稱(chēng)得上智能音箱呢?充其量不過(guò)是個(gè)語(yǔ)音控制的音箱而已。很多時(shí)候筆者覺(jué)得,語(yǔ)音識(shí)別還不如手勢(shì)識(shí)別更為簡(jiǎn)單好用!當(dāng)然對(duì)于那些流媒體的音樂(lè)內(nèi)容提供商來(lái)說(shuō),這種前端產(chǎn)品或許是不得不做的產(chǎn)品,至少搶個(gè)賽道再說(shuō)。
我們一直強(qiáng)調(diào),智能音箱還是一個(gè)音箱,但是為什么大多數(shù)廠商都把這個(gè)基本訴求給忽略了呢?一味強(qiáng)調(diào)智能而不扎實(shí)做好音箱的品質(zhì),如此這般,還不如干脆做個(gè)智能盒子好了。筆者相信,就是因?yàn)橛腥绱硕嗟膯?wèn)題,說(shuō)明智能音箱領(lǐng)域還存在眾多機(jī)會(huì),若在這個(gè)領(lǐng)域創(chuàng)業(yè)創(chuàng)新,有必要思考下面的3個(gè)問(wèn)題:
(1)回歸音箱本質(zhì),發(fā)燒音質(zhì)才是智能的基礎(chǔ)
網(wǎng)上早已不止筆者一人批評(píng)智能音箱的音質(zhì)了。無(wú)論智能音箱的產(chǎn)品
上一頁(yè)
上一頁(yè)
關(guān)鍵字: