學術分享 | 數字病理圖像分析方法的開發( 三 )


技術的比較
這篇非常簡短的概述旨在展示圖像處理、機器學習和數字病理分析的深度學習方法之間的重疊 。 最后 , 所有這些都應用于圖像的像素值 。 卷積——縮放和求和相鄰像素值——在每種情況下都扮演著重要的角色 。
專門使用傳統圖像處理來開發算法的一個優點是 , 這些方法定義明確、易于處理 。 開發人員通過設置關鍵參數(如過濾器大小和閾值)來調整性能 。 優點是簡單:使用少量直觀參數的算法很容易應用適應新圖像 , 而一個復雜的、手工調整的算法很可能是脆弱的 , 并過度擬合某個數據集 。 然而 , 簡單性同時也是一個限制因素:病理數據的復雜性意味著僅靠圖像處理往往是不夠的 。
傳統機器學習的一個好處是 , 開發人員可以專注于更高層次的問題:他們可以提供訓練數據和表示應該處理的圖像的標注 , 而不是指定固定的規則 。 開發和應用傳統的機器學習模型也可以非常快:在交互式標注圖像時 , 可以在幾秒鐘內訓練一個模型 , 并在需要時逐步細化 , 盡管更結構化的多圖模型訓練方法通常更好 。 然而 , 即使經過大量的訓練 , 成功與否最終還是取決于輸入特征的有用性和信息量 。 由于關鍵參數被包裹在模型中 , 所以它們不能很容易地調優用于處理新圖像 。 所以當算法失敗時 , 我們需要訓練一個新的模型 。
關于傳統機器學習的大多數觀點也適用于深度學習 , 但有兩點需要注意 。 首先 , 從頭開始訓練深度學習模型通常要慢得多:通常需要幾個小時或更長時間 , 這取決于模型、訓練數據和可用的計算資源——不過 , 如果可以將訓練應用于現有模型 , 進行微調 , 則可以大大減少訓練時間 。 其次 , 模型性能不太受可用特征的限制 , 盡管它仍然受可用訓練數據和損失函數定義的限制 。
在實踐中 , 所有的技術都有優缺點 。 復雜的分析問題通常需要將它們中的所有元素組合起來(圖1) 。
實踐中的分析
任何尋求開發或應用數字病理的人都會遇到許多相同的挑戰 。 這里我將討論一些主要困難 , 并考慮如何解決它們 。
泛化和偏向
有限的泛化影響了所有的數字病理分析 , 并被描述為“可能是在臨床中大規模實施[計算病理學]技術的唯一最主要的障礙” 。 一個看似成功的算法在遇到與用于開發的數據有明顯差異的數據時 , 可能會以不同的(通常是微妙的)方式受到阻撓 。 例如 , 據報道 , 在CAMEYLON17大挑戰中 , 用于檢測淋巴結轉移的排名最高的深度學習算法 , 仍在訓練集中很少出現的良性區域受到阻撓 。
另一項研究報告稱 , 通過使用更大的訓練數據集和更弱的標注(即切片級標注 , 而不是勾畫單個轉移瘤的輪廓)提高了算法強大性 , 但其仍然承認 , 當用于訓練和測試的切片來自不同來源或使用不同的掃描儀時 , 算法性能有所下降 。 不同的深度學習方法 , 輸入圖像中細微的、視覺下的變化也可能導致截然不同的預測 , 這種方法甚至可以被用作一種“攻擊” , 通過故意操縱圖像來引起不同的預測 。
解決這一問題的一個策略是涵蓋來自不同來源、使用不同掃描儀獲得的更多樣化的訓練圖像 。 然而 , 問題在于 , 這可能會引入可學習的隱藏變量 , 從而產生批次效應 。 例如 , 一項將深度學習應用于五家機構的黑色素瘤幻燈片的研究表明 , 可以了解切片來源、掃描儀類型、患者年齡 , 甚至(在較小程度上)切片制備日期的信息 。 一項類似的研究表明 , 在癌癥基因組圖譜(TCGA)的圖像中可以識別特定位點的特征 , 而這些特征與種族有關 。 如果模型學習到與訓練標注相關的特征(由于隊列構成而不是疾病) , 那么這種效應可能會提供一個夸大的準確性估計或系統偏差 。