一、前言
癌癥是一個定義松散的術語 , 它是指具有獲得病理特性的細胞 , 這部分細胞喪失細胞周期調節、具有高的增殖率 , 以及喪失接觸抑制導致周圍組織侵襲 。 隨著時間的推移 , 癌細胞破壞所在組織的正常功能 , 并可能轉移到其他組織 。 癌基因有助于細胞轉化 , 而抑癌基因則阻止異常細胞增殖 。
除癌基因和抑癌基因的突變外 , 在癌癥類型的亞組中還發現了導致癌癥發生和進展的癌癥驅動突變 。 雖然這些遺傳改變是多種多樣的 , 但癌癥中改變的基因通常集中在一些參與腫瘤發生的分子機制上 。 這些通路具有廣泛的影響 , 涵蓋細胞周期、炎癥和細胞凋亡等 。 因此 , 它們在癌癥中發揮作用的機制是高度多樣化和分子異質的 , 但它們也是相互關聯的 。
先前的研究試圖利用這些預測的癌癥共同特征來訓練計算模型 , 以區分腫瘤與正常樣本 , 或區分不同的腫瘤類型 。 通常 , 這些研究依賴于蛋白質編碼基因表達數據與深度神經網絡(或其他機器學習算法)相結合 , 將樣本分為兩個或多個類類別 。 這些研究表明 , 機器學習模型可以在一定的條件下 , 成功區分正常組織和腫瘤組織 。

文章圖片
二、數據和方法
三、結果
1、用蛋白質編碼基因表達訓練的前饋神經網絡區分正常組織和癌組織
為了揭示通常定義癌癥狀態的轉錄組學特征 。 對來自GTEx和TCGA的11對正常組織及腫瘤配對樣本進行差異基因表達分析 , 然后查看失調基因中的overlap , 結果表明僅有很少的蛋白質編碼基因在六種或更多腫瘤類型中始終上調或下調[Fig.1a] 。
為了克服對常見癌癥轉錄組特征幼稚研究的局限性 , 作者試圖訓練能夠區分正常和癌癥樣本的可解釋深度學習模型 。
首先 , 整合一個大型RNA-Seq數據集 , 包含19種正常組織類型和18種腫瘤類型的13,461個樣本 , 并將數據分為反映癌癥狀態的兩類:正常或腫瘤[Fig.1bc] 。 同時 , 使用12個較小的數據集來校正特定于數據集的偏差 , 這些數據集要么僅包含腫瘤樣本 , 要么僅包含來自同一患者的腫瘤和配對的正常樣本 。 作者還考慮了一個替代的方法——均值校正 , 例如常用的COMBAT方法 , 但這種方法嚴重限制了可用于模型訓練的數據和基因集 。
然后 , 使用來自19,657個蛋白質編碼基因均值校正的表達數據 , 來訓練一個自動編碼器進行降維;使用有監督的深度神經網絡來預測癌癥狀態 。 在驗證集上調整模型超參數(學習率、隱藏層、節點數、激活函數和丟失概率) , 并使用驗證集上性能最佳的超參數來修復模型架構 。
最后 , 為了確保模型不會學習特定于數據集的偏差 , 使用一個額外的數據集評估該模型的效能 。 結果表明 , 蛋白質編碼基因表達模型能夠精確的預測樣本來自正常組織還是腫瘤組織(Fig.1efg) 。
為了評估該模型對于其他癌癥類型的效能(訓練集未包含該癌癥類型) , 從三個額外的數據集中組織了一個新的數據集(包含正常細胞和惡性血液細胞);在不進行批次校正的情況下 , 評估深度學習模型表現 。 令人驚訝的是 , 盡管訓練集和測試集數據之間存在顯著差異 , 但該模型仍舊能夠成功地將正常和癌癥樣本與血液區分開來(Fig.1h) 。
另外 , 在相同的數據集中訓練支持向量機和隨機森林模型 , 作者發現 , 雖然在相同的獨立數據集上進行測試 , 三個模型的效能相似 。 但當將支持向量機模型和隨機森林模型用于血液數據集時 , 這兩個模型完全失效(Fig.1h) 。 這表明 , 與常用的機器學習方法相比 , 深度神經網絡模型更準確、更穩健 。
- 常吃“豆腐乳”的人,最后會發生什么?看完文章后,你也許會明白
- 神農解痙方劑:這幾個表現是梅杰綜合征的“警示燈”!早看早知道!
- 儲藏新會陳皮必看,南北方要注意各自環境差異!
- 事關30億,確定不看看?
- 良醫|不明白?來,中山醫院“燕子醫生”畫給你看
- 鄉村振興看大連 | “科技”進村屯 鞏固脫貧成果
- 一天中,吃蘋果的3個“最佳時間”,想要悄悄變瘦的人,不妨一看
- “霸道總裁”劉愷威演過的電視劇,看過六部,你就是大神!
- 專家又出招:醫院不是菜市場,看病應預約,要我說專家挨罵真不冤
- 車前草|如何知道腎功能的強弱?從起床后的4個表現中可以看出
