a久久男人的天堂,人妻少妇视频在线观看

編者按：Kanda機器學習工程師Daniel Rothmann分析了基于光譜圖利用CNN進行音頻處理效果不佳的原因。

圖片來源：Jack Hamilton

近幾年來，基于神經網絡生成、處理圖像方面有很多偉大的成果。這部分歸功于深度CNN在捕捉、轉換圖像的高層信息上的強大表現(xiàn)。一個知名的例子是L. Gatys等提出的使用CNN轉換圖像風格的方法，該方法能夠以不同的風格渲染圖像的語義內容。

Y. Li等很好地解釋了神經風格遷移的過程：“該方法使用CNN不同層的神經激活組成的格拉姆矩陣表示圖像的藝術風格。接著使用迭代優(yōu)化方法，通過神經激活匹配內容圖像，格拉姆矩陣匹配風格圖像，從白噪聲生成新圖像?！?/p>

簡單地說，根據源內容圖像和風格圖像在不同抽象水平上的特征組合生成圖像，得到了這些結果。例如，保持內容圖像的高層結構和輪廓，納入風格圖像的顏色和低層紋理。

圖片來源：L. Gatys等

視覺處理領域風格遷移的表現(xiàn)相當令人印象深刻，所以人們很自然地想到利用CNN優(yōu)化“更智能”的音頻處理算法，例如，使用CNN分析和處理音頻的光譜。將光譜作為圖像處理，并基于CNN進行神經風格遷移，這是可以做到的，但到目前為止，我們得到的結果遠遠不能和視覺圖像相比。

為了克服這一挑戰(zhàn)，在神經音頻處理上得到更好的結果，我們也許需要考慮下為什么基于CNN的風格遷移在光譜上的表現(xiàn)不佳。這些技術基本上是通過應用機器視覺來進行機器聽覺任務。我相信這帶來了一個本質問題，可能阻礙了AI輔助技術在音頻處理上的進展。盡管這個問題無疑可以從許多角度考慮，探索下圖像和光譜的區(qū)別，還有視覺和聽覺的一些不同，也許是值得的。

聲音是“透明的”

通過比較視覺圖像和光譜，我們可以發(fā)現(xiàn)視覺物體和聲音事件積聚的方式不同。用視覺來類比，聲音總是“透明的”而大多數視覺物體是不透明的。

遇到圖像中某一顏色的像素時，大多數情況下我們都可以假定它屬于單個物體，而不同的聲音事件在光譜圖上并不分層。這意味著，我們不能假定光譜圖中觀察到的某一具體頻率屬于單個聲音，因為該頻率的幅度可能是任意數目的聲音累加所得，甚至是相位相抵這樣的聲波間的復雜交互。所以，在光譜表示中，區(qū)分同時發(fā)生的聲音很難。

上圖展示了三個光譜分析的困難場景。左：相似的音調導致頻率上不均勻的相位相抵。中：難以分離音高相似的同時發(fā)生的嗓音。右：噪雜、復雜的聲音場景，使得區(qū)分聲音事件特別困難。

光譜的軸攜帶不同的含義

用于圖像的CNN使用在x和y維度共享權重的二維過濾器4。如前所述，這一切建立在圖像的特征攜帶的含義與其位置無關這一假定上。例如，不管圖像中的人臉是橫向的，還是縱向的，它始終是一張人臉。

而光譜圖的兩個維度表示根本不同的單位，一個是頻率的強度，另一個是時間。橫向移動聲音事件意味著它在時間上的位置發(fā)生了偏移，可以主張，不管它是何時發(fā)生的，一個聲音事件都意味著同一件事。然而，縱向移動聲音也許會影響其含義：例如，向上移動男性嗓音的頻率可能使含義從男子變?yōu)樾『⒒蚋绮剂?。聲音事件的頻率調整也可能改變聲音的空間范圍4。因此，二維CNN提供的空間不變性在這種形式的數據上也許表現(xiàn)沒有那么好。

聲音的光譜性質不是局部的

在圖像上，相似的相鄰像素經常被假定為屬于同一視覺物體，但在聲音上，頻率大多數情況下在光譜上的分布是非局部的4。周期性的聲音通常由基礎頻率和若干泛音組成。這些泛音的混合決定了音質。

在女性人聲的例子中，某一時刻的基礎頻率也許是200Hz，而第一泛音是400Hz，接下來是600Hz，以此類推。這些頻率并不存在局部分組，但以共同關系一起移動。這使基于二維卷積在光譜中找出局部特征這一任務變得更困難了，因為盡管這些泛音根據同一因素移動，但在空間上經常呈不均勻分布。

女性人聲頻率的非局部分布

聲音內在地是序列的

評估視覺環(huán)境時，我們可以多次“掃描”周邊以定位場景中的每個視覺物體。由于大多數物體不是移動的，它們反射光線的方式是可預測的，我們可以建立它們在物理場景下的擺放位置的心智地圖。從感知的角度來說，我們假定視覺物體在觀測到的位置上持續(xù)存在，即使當我們轉頭查看別處時也是如此。

在聲音上這不成立。聲音采用壓力波的物理形式，從聽者的角度來說，這樣的波在某一時刻的狀態(tài)僅僅是當前的。過了這一時刻，聲波便悄然離去。之所以將這一現(xiàn)象稱為聲音事件而不是物體，正是因為如此。從物理上說，這意味著聽者僅在每一時刻體驗到聲音。圖像包含了大量的靜態(tài)并行信息，而聲音是高度序列化的。

更合適的比較是音頻和視頻。這兩個媒體都可以被認為描述時間上的運動，其中時間上的依賴性對內容含義的體驗是必不可少的。由于視頻是由一組圖像（幀）構成的，它包含更多并行信息。

演示這一點的其中一個方法是在這兩個媒體中“凍結”某一時刻。查看視頻的一幀（常常是約1/25秒的曝光時間），我們經常仍舊能夠收集關于上下文、行動、場景的大量信息：我們可以識別單個物體，有時還能估計行動和移動。但當“凍結”音頻的某一時刻（例如約1/25秒的信息聚合），基于光譜分析的估計就不可能那么全面。我們可以搜集一些關于信號的總音調平衡和特性的信息，但程度遠不及視頻。

例如，不可能從時間上下文之外識別單獨的聲音事件，以查看相同時間模式上的光譜發(fā)展。唯一可以確定的就是某一特定時刻聽到的聲音的音調平衡。我們之前提到過，聲音的物理形式是波，這就解釋了為什么：聲音不以靜態(tài)物體的形式存在，無法并行觀測，它們以氣壓序列的形式到達，通過時間才能建立這些壓力的意義。

這些原因暗示了聲音作為傳達含義的媒體在本質上是序列的，比視頻更依賴時間。這是將聲音的視覺光譜表示傳入圖像處理網絡，而沒有考慮到時間的方法可能效果不佳的另一個原因。

建模人類體驗的一個例子

通過建模人類系統(tǒng)，AI技術取得了突破性的進展。盡管人工神經網絡是數學模型，僅僅從實際的人類神經元功能上得到了一些最初的啟示，它們在解決復雜、不明確的真實世界問題上的應用有目共睹。在這些神經網絡中建模大腦架構上的深度為學習數據的更多有意義表示開啟了廣泛的可能性。在圖像辨認和處理方面，CNN從視覺系統(tǒng)的復雜的空間不變性上得到的啟發(fā)已經在技術上產生了很大的進展。

正如J. B. Allen在“How Do Humans Process and Recognize Speech?”（人類如何處理和辨識語音）一文中所主張的，只要人類的感知能力超過機器，我們就能持續(xù)從理解人類系統(tǒng)的原則中獲得收益5。一般來說，人類在感知任務上非常靈巧，而人類理解和AI現(xiàn)狀在機器聽覺領域的差別尤為明顯?？紤]到從人類系統(tǒng)獲得的啟發(fā)在視覺處理領域的收獲（以及視覺模型在聲音上表現(xiàn)沒那么好這一點），我覺得我們在基于神經網絡的機器聽覺上也能從借鑒人類系統(tǒng)中持續(xù)獲得收益。

這是機器聽覺系列的第二篇，如果你錯過了第一篇，可以點擊下面這個鏈接：

背景：AI在音頻處理上的潛力

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴