分享

深度學習之卷積神經網絡

卷積神經網絡被設計用來處理到多維數組數據的,比如一個有3個包含了像素值2-D圖像組合成的一個具有3個顏色通道的彩色圖像。很多數據形態都是這種多維數組的:1D用來表示信號和序列包括語言,2D用來表示圖像或者聲音,3D用來表示視頻或者有聲音的圖像。卷積神經網絡使用4個關鍵的想法來利用自然信號的屬性:局部連接、權值共享、池化以及多網絡層的使用。

一個典型的卷積神經網絡結構(如圖1)是由一系列的過程組成的。最初的幾個階段是由卷積層和池化層組成,卷積層的單元被組織在特征圖中,在特征圖中,每一個單元通過一組叫做濾波器的權值被連接到上一層的特征圖的一個局部塊,然后這個局部加權和被傳給一個非線性函數,比如ReLU。在一個特征圖中的全部單元享用相同的過濾器,不同層的特征圖使用不同的過濾器。使用這種結構處于兩方面的原因。首先,在數組數據中,比如圖像數據,一個值的附近的值經常是高度相關的,可以形成比較容易被探測到的有區分性的局部特征。其次,不同位置局部統計特征不太相關的,也就是說,在一個地方出現的某個特征,也可能出現在別的地方,所以不同位置的單元可以共享權值以及可以探測相同的樣本。在數學上,這種由一個特征圖執行的過濾操作是一個離線的卷積,卷積神經網絡也是這么得名來的。

卷積層的作用是探測上一層特征的局部連接,然而池化層的作用是在語義上把相似的特征合并起來,這是因為形成一個主題的特征的相對位置不太一樣。一般地,池化單元計算特征圖中的一個局部塊的最大值,相鄰的池化單元通過移動一行或者一列來從小塊上讀取數據,因為這樣做就減少的表達的維度以及對數據的平移不變性。兩三個這種的卷積、非線性變換以及池化被串起來,后面再加上一個更多卷積和全連接層。在卷積神經網絡上進行反向傳播算法和在一般的深度網絡上是一樣的,可以讓所有的在過濾器中的權值得到訓練。

深度神經網絡利用的很多自然信號是層級組成的屬性,在這種屬性中高級的特征是通過對低級特征的組合來實現的。在圖像中,局部邊緣的組合形成基本圖案,這些圖案形成物體的局部,然后再形成物體。這種層級結構也存在于語音數據以及文本數據中,如電話中的聲音,因素,音節,文檔中的單詞和句子。當輸入數據在前一層中的位置有變化的時候,池化操作讓這些特征表示對這些變化具有魯棒性。

卷積神經網絡中的卷積和池化層靈感直接來源于視覺神經科學中的簡單細胞和復雜細胞。這種細胞的是以LNG-V1-V2-V4-IT這種層級結構形成視覺回路的。當給一個卷積神經網絡和猴子一副相同的圖片的時候,卷積神經網絡展示了猴子下顳葉皮質中隨機160個神經元的變化。卷積神經網絡有神經認知的根源,他們的架構有點相似,但是在神經認知中是沒有類似反向傳播算法這種端到端的監督學習算法的。一個比較原始的1D卷積神經網絡被稱為時延神經網絡,可以被用來識別語音以及簡單的單詞。

20世紀90年代以來,基于卷積神經網絡出現了大量的應用。最開始是用時延神經網絡來做語音識別以及文檔閱讀。這個文檔閱讀系統使用一個被訓練好的卷積神經網絡和一個概率模型,這個概率模型實現了語言方面的一些約束。20世紀90年代末,這個系統被用來美國超過10%的支票閱讀上。后來,微軟開發了基于卷積神經網絡的字符識別系統以及手寫體識別系統。20世紀90年代早期,卷積神經網絡也被用來自然圖形中的物體識別,比如臉、手以及人臉識別(face recognition )。

在夜店怎么赚钱快