back-propagation Back Propagation



文章插圖
back-propagation Back Propagation

文章插圖
反向傳播可以解釋大腦學習嗎?近日 Hinton 等人的研究認為,盡管大腦可能未實現字面形式的反向傳播,但是反向傳播的部分特征與理解大腦中的學習具備很強的關聯性 。該研究將之前的相關研究置于「NGRAD」框架下,NGRAD 算法利用活動狀態的差異驅動突觸更新,這與反向傳播類似 。
加拿大 CIFAR 人工智能主席、麥吉爾大學生物工程系教授 Danilo Bzdok 轉發了該研究 。
在學習過程中,大腦會調整突觸以優化行為 。在皮層中,突觸嵌入在多層網絡中,這導致我們難以確定單個突觸的調整對整個系統行為的影響 。而反向傳播算法在深度神經網絡中解決了上述問題,不過長期以來人們一直認為反向傳播在生物層面上存在問題 。
盡管如此,神經科學的最新發展和神經網絡的成功激活了人們對反向傳播能否幫助進一步了解皮層學習的興趣 。反向傳播算法使用反向連接(feedback connection)傳遞誤差信號,來計算突觸更新,從而實現快速學習 。盡管反向連接在皮層中無處不在,但我們很難觀察到它們是如何傳遞反向傳播所需誤差信號的 。
【back-propagation Back Propagation】近日,來自 DeepMind、牛津大學和谷歌大腦的 Timothy P. Lillicrap、Adam Santoro、Geoffrey Hinton 等人在 Nature 子刊《Nature Reviews Neuroscience》發表文章 。該研究以過去和近期的研究發展為基礎,認為反向連接可能會引發神經活動,而其中的差異可用于局部逼近誤差信號,從而促進大腦深層網絡中的有效學習 。
大腦對反向傳播算法的近似 。
論文地址:https://www.nature.com/articles/s41583-020-0277-3
引言
大腦通過調整神經元之間的突觸連接來進行學習 。盡管突觸生理學可以幫助解釋單個突觸調整背后的規則和過程,但這并不能解釋突觸調整是如何協調進而實現網絡目標的 。
學習不能只是對局部突觸特定事件的盲目累積,也不能不考慮下游行為后果 。因此,想要了解大腦中的學習過程,就必須揭示在整個網絡中協調可塑性的原則 。
在機器學習領域中,研究人員探索協調突觸更新的方法,以提高神經網絡的性能,同時不受生物現實情況的限制 。
他們首先定義了神經網絡的整體架構,包括大量神經元及其連接方式 。例如,研究人員經常使用包含多層神經元的深層網絡,因為研究證明這些架構對于多項任務都非常有效 。
接下來,定義一個誤差函數,用于量化當前網絡實現目標的程度,進而搜索學習算法來計算那些可以減少誤差的突觸變化(如下圖 1) 。
圖 1:多種學習算法圖示 。a)從左到右:神經網絡通過一系列簡單的計算單元來計算輸出 。b)在規定突觸變化特異性的譜系中,反向傳播和擾動算法的位置 。c)該譜系上的算法以不同的速度進行學習 。
在機器學習中,誤差反向傳播(backprop)是深度神經網絡訓練中最常用的算法,也是這些神經網絡中最成功的學習步驟 。
反向傳播算法描述見下圖:
反向傳播算法的核心是對整個網絡所有可能的路徑重復使用鏈式法則 。反向傳播算法真正強大的地方在于它是動態規劃的,我們可以重復使用中間結果計算梯度下降 。因為它是通過神經網絡由后向前傳播誤差,并優化每一個神經節點之間的權重,所以這種算法就稱之為反向傳播算法(backpropagation algorithm) 。
經過反向傳播訓練的網絡是機器學習近期成功案例的核心,包括最領先的語音識別、圖像識別以及語言翻譯 。反向傳播還支撐了無監督學習方面的最新進展,例如圖像和語音生成、語言建模和其他相關的預測任務 。此外,反向傳播和強化學習的組合在解決控制問題方面也取得了重大進展,例如玩轉 Atari 游戲,在圍棋和撲克游戲中擊敗人類頂尖的專業選手 。
反向傳播通過反向連接發送的誤差信號來調整突觸,該經典方法已在監督學習設置中有詳細描述 。
然而,大腦似乎將反向連接用于不同目的,而且主要以無監督的方式進行學習,為原始感官輸入中的隱式表征構建顯式結構從而建立表征 。那么,我們很自然地就會想到這個問題:反向傳播算法是否可以幫助我們了解更多有關大腦學習的信息?
該研究認為,盡管存在明顯的差異,但大腦仍有能力實現反向傳播的核心原則 。其主要思想是,大腦可以通過使用反向連接來引發神經元活動從而計算有效的突觸更新,而這些神經元活動將局部計算出的差異編碼成類似于反向傳播的誤差信號 。
該研究將一組看似完全不同的學習算法放入該框架中——neural gradient representation by activity differences(NGRAD) 。
NGRAD 框架表明,在避開反向傳播許多有問題的實現要求后,反向傳播核心原則的實現是可能的 。這些考慮因素可能與任何同時包含前向和反向連接的腦回路有關 。盡管如此,該研究團隊仍然關注大腦皮層,皮層是由其多層結構和分層組織所定義的,因此長期以來被視為具與深度網絡具備很多相關的架構特征 。
大腦中是否存在反向傳播?
目前沒有直接證據表明,大腦使用類似反向傳播的算法進行學習 。但是,之前的研究表明,使用反向傳播訓練的模型可以解釋觀測到的神經響應,如后頂葉皮層和初級運動皮層中的神經元響應 。此外,神經科學領域對視覺皮層進行建模的研究提供了新的證據 。
該研究表明,相比匹配靈長目動物視覺皮層腹側流中表征的其他模型,使用反向傳播訓練得到的多層分類模型性能更好(參見下圖 2) 。
未使用反向傳播訓練的模型(如使用 Gabor filter 的生物啟發模型,或使用非反向傳播優化的網絡)的性能不如使用反向傳播進行優化的網絡 。與使用反向傳播訓練的模型所發現的表征相比,未使用反向傳播模型的表征無法很好地匹配下顳葉皮層中的表征 。
圖 2:使用反向傳播訓練的網絡與利用視覺皮層腹側流中神經響應的模型的對比 。a)Cadieu 等人的研究 [58] 表明使用反向傳播訓練的模型(藍色)比其他模型(灰色)更好地解釋下顳葉皮層(IT)中的多單元響應;b)Khaligh-Razavi 和 Kriegeskorte 的研究 [70] 表明,具備更好分類性能的模型與 IT 表征的近似度越高 。
使用反向傳播訓練的深層網絡除了能夠更好地匹配大腦中的表征以外,它還可以幫助解釋感知學習中感受野變化的規模和時間,以及在動物和人類的某種學習過程中觀察到的階段變換 。
反向傳播自身的問題
盡管越多越多的證據表明使用反向傳播訓練的多層網絡有助于解釋神經數據,但關于如何在皮層中實現類反向傳播的學習還有很多難題 。下列公式 1 表示反向傳播中的突觸更新:
基于該公式,該研究指出了在生物回路中實現反向傳播的三個主要難題 。
反向傳播要求前向和后向路徑具備突觸對稱性
反向傳播的樸素實現要求通過反向連接傳播誤差信號,而反向連接的強度必須與前向連接一致 。從上文公式 1 中可以看到,誤差 δ_l+1 沿著后向權重 W^?_l+1 移動,該后向權重與前向權重是對稱的 。
在計算機上,反向傳播算法利用一組與前向傳播所用活動變量完全不同的 error derivative 變量,向后傳播誤差信息 。而將反向傳播引入大腦中后,大腦中的誤差信息可以通過不同的「誤差傳播網絡」(error delivery network)進行傳播,該反向網絡的每一個神經元均攜帶前向網絡中對應神經元的更新信息 。
反向傳播中的誤差信號可能出現極值情況
在反向傳播中,通過網絡向后傳播用于告知更新的信息通常以 signed 誤差信號 δ 的形式進行傳輸 。在訓練過程中,誤差信號常常發生多個數量級的變化,即梯度爆炸和梯度消失問題 。
盡管有證據表明單層結構(如小腦)中存在 signed 誤差傳播,但深層網絡(如大腦皮層)中 signed 誤差的反饋存在很多問題 。
大腦中的反向連接改變了神經活動
在誤差反向傳播中,反向連接發送的誤差信號不會影響前向傳播生成神經元的活動狀態 。但是通過 δ 傳播的信息僅對突觸更新造成影響 。因此,大腦中反向連接的作用發生本質變化 。例如在皮層中,反向連接影響前向傳播生成的神經活動,而這些活動用于執行多個功能 。又例如,通過反向連接執行自上而下的控制與增益控制(gain control)有一定關聯,即神經響應的增強或抑制取決于對視場中特定特征的關注 。有趣的是,大腦皮層中的反向連接還可以驅動活動,而不只是調整或激活活動 。
NGRAD 假設
利用神經活動差異來編碼誤差
研究者將利用活動狀態差異來驅動突觸變化的學習機制稱為 NGRAD,而皮層利用 NGRAD 機制來執行對梯度下降近似的想法被稱為 NGRAD 假設 。該假設的主要魅力在于,它不再需要傳播兩種類型截然不同的參數:活動和 error derivative 。
相反,NGRAD 機制基于這樣一種 idea,即來自一個目標、另一種形態或更大空間或時間背景的較高級活動,可以推動較低級活動得到與較高級活動或期望輸出更一致的值 。然后,較低級活動中出現的變化可以僅使用局部可用信號來計算反向傳播的權重更新 。因此,其核心理念是自上而下驅動(top-down-driven)的活動可以在層間不出現明顯誤差信息的情況下驅動學習 。
目標傳播
目標傳播是深度學習中使用一系列自編碼器的基礎理念,下圖 3a 展示了目標傳播的流程圖:
圖 3:目標傳播算法 。a)在每一層使用完美反函數 g_l=f_l^-1(.) 的目標傳播原理圖;b)差異目標傳播有助于糾正反向連接或許無法實現完美反函數的事實;c)單層差異目標傳播原理圖 。前向突觸權重的更新旨在促使 forward-pass 隱藏活動更接近修正后的隱藏目標 。
差異目標傳播
上文中描述的目標傳播使用完美的自編碼器將目標傳達至較早出現的層 。這個約束是不切實際的,但可以通過訓練后向權重來修復 。在前向傳遞過程中,研究者力圖基于后續層中的活動來重建神經活動:? h= g_l+1(h_l+1)(如圖 3b 中淺紫色箭頭所示)
此學習過程稱為差異目標傳播(difference target propagation,DTP),并在圖 3b 和 c 中與逐層權重更新一起顯示 。
實現
大腦如何近似反向傳播,現有的 NGRAD 或許能提供高級見解,但是關于如何在神經組織中實現這種算法仍有許多疑問 。
為了在神經回路中發揮作用,NGRAD 必須具備以下能力:協調前向和反向路徑之間的交互、計算神經活動模式之間的差異以及利用這一差異進行適當的突觸更新 。
當前,尚不清楚生物回路如何支持這些操作,但最近的實證研究提出了針對這些實現所需的一組潛在解決方案(下圖 4) 。
圖 4:大腦如何近似反向傳播算法,近期的實證研究提供了新思路 。