學術分享 | 數字病理圖像分析方法的開發( 三 ) _健康小知識

技術的比較
這篇非常簡短的概述旨在展示圖像處理、機器學習和數字病理分析的深度學習方法之間的重疊。最后，所有這些都應用于圖像的像素值。卷積——縮放和求和相鄰像素值——在每種情況下都扮演著重要的角色。
專門使用傳統圖像處理來開發算法的一個優點是，這些方法定義明確、易于處理。開發人員通過設置關鍵參數(如過濾器大小和閾值)來調整性能。優點是簡單：使用少量直觀參數的算法很容易應用適應新圖像，而一個復雜的、手工調整的算法很可能是脆弱的，并過度擬合某個數據集。然而，簡單性同時也是一個限制因素：病理數據的復雜性意味著僅靠圖像處理往往是不夠的。
傳統機器學習的一個好處是，開發人員可以專注于更高層次的問題：他們可以提供訓練數據和表示應該處理的圖像的標注，而不是指定固定的規則。開發和應用傳統的機器學習模型也可以非常快：在交互式標注圖像時，可以在幾秒鐘內訓練一個模型，并在需要時逐步細化，盡管更結構化的多圖模型訓練方法通常更好。然而，即使經過大量的訓練，成功與否最終還是取決于輸入特征的有用性和信息量。由于關鍵參數被包裹在模型中，所以它們不能很容易地調優用于處理新圖像。所以當算法失敗時，我們需要訓練一個新的模型。
關于傳統機器學習的大多數觀點也適用于深度學習，但有兩點需要注意。首先，從頭開始訓練深度學習模型通常要慢得多：通常需要幾個小時或更長時間，這取決于模型、訓練數據和可用的計算資源——不過，如果可以將訓練應用于現有模型，進行微調，則可以大大減少訓練時間。其次，模型性能不太受可用特征的限制，盡管它仍然受可用訓練數據和損失函數定義的限制。
在實踐中，所有的技術都有優缺點。復雜的分析問題通常需要將它們中的所有元素組合起來(圖1) 。
實踐中的分析
任何尋求開發或應用數字病理的人都會遇到許多相同的挑戰。這里我將討論一些主要困難，并考慮如何解決它們。
泛化和偏向
有限的泛化影響了所有的數字病理分析，并被描述為“可能是在臨床中大規模實施[計算病理學]技術的唯一最主要的障礙” 。一個看似成功的算法在遇到與用于開發的數據有明顯差異的數據時，可能會以不同的(通常是微妙的)方式受到阻撓。例如，據報道，在CAMEYLON17大挑戰中，用于檢測淋巴結轉移的排名最高的深度學習算法，仍在訓練集中很少出現的良性區域受到阻撓。
另一項研究報告稱，通過使用更大的訓練數據集和更弱的標注(即切片級標注，而不是勾畫單個轉移瘤的輪廓)提高了算法強大性，但其仍然承認，當用于訓練和測試的切片來自不同來源或使用不同的掃描儀時，算法性能有所下降。不同的深度學習方法，輸入圖像中細微的、視覺下的變化也可能導致截然不同的預測，這種方法甚至可以被用作一種“攻擊” ，通過故意操縱圖像來引起不同的預測。
解決這一問題的一個策略是涵蓋來自不同來源、使用不同掃描儀獲得的更多樣化的訓練圖像。然而，問題在于，這可能會引入可學習的隱藏變量，從而產生批次效應。例如，一項將深度學習應用于五家機構的黑色素瘤幻燈片的研究表明，可以了解切片來源、掃描儀類型、患者年齡，甚至(在較小程度上)切片制備日期的信息。一項類似的研究表明，在癌癥基因組圖譜（TCGA）的圖像中可以識別特定位點的特征，而這些特征與種族有關。如果模型學習到與訓練標注相關的特征(由于隊列構成而不是疾病) ，那么這種效應可能會提供一個夸大的準確性估計或系統偏差。