切莫陷入機器學習的這9個誤區 _知識百科

機器學習已經被證明是很有用的，但也容易被假設可以解決所有問題、適用于所有情況。和其他工具一樣，機器學習在特定領域很有用處，特別是那些你一直都知道有、但永遠無法雇傭足夠的人來解決的問題；或者是那些有明確目標、但沒有明確實現方法的問題。
盡管如此，每個企業組織都可以以某種方式利用機器學習，在埃森哲最近的一項調查中，有42％的高管表示，他們預計到2021年我們幾乎所有創新項目背后都有人工智能的支持。但是，如果除去炒作的話你能得到更好的結果，通過了解機器學習能做什么、不能做什么，避免常見的誤區。
誤區1：機器學習就是人工智能
機器學習和人工智能經常當作是同義詞，機器學習是從研究實驗室走出現實世界最成功的一項技術，而人工智能則是一個廣泛的領域，覆蓋了計算機視覺、機器人和自然語言處理等領域，以及不包含機器學習的約束滿足等方法。可以把人工智能看到一切能讓機器變聰明的方法。所有這些都不是一些人擔心會與人類競爭甚至是攻擊人類的那種“人工智能” 。
你要謹慎看待各種流行詞匯，盡量做到精準。機器學習是關于學習模式和預測大數據集的結果；其結果可能看起來很“聰明”，但核心是以前所未有的速度和規模運用統計學。
誤區2：所有數據都是有用的
要做機器學習的話就需要數據，但并非所有數據都可用于機器學習。為了訓練系統，你需要有代表性的數據，以涵蓋機器學習系統需要處理的模式和結果。你所需的數據不應該包含那些不相關的模式（例如照片顯示所有站立起來的男士和所有坐著的女士，或者所有車輛都在車庫中，所有自行車都在泥濘的場地中），因為你創建的機器學習模型將反映那些過于具體的模式，在你使用的數據中心查找這些模式。所有用于訓練的數據都需要貼上標簽，并且標記上那些與你向機器學習系統提問相匹配的特征，這就需要大量的工作。
不要假設你已經擁有干凈的、清晰的、具有代表性或易于標記的數據。
誤區3：你總是需要大量的數據
最近在圖像識別、機器閱讀理解、語言翻譯和其他領域所取得的重大進展，主要是因為現在我們有了更好的工具、能夠并行處理大量數據的GPU等計算硬件、以及已經標記的大型數據集，包括ImageNet和Stanford Question Answering Datase 。但是，因為有一種名為轉移學習的技巧，所以你并不總是需要大量數據才能在特定領域獲得良好結果；相反，你可以訓練機器學習系統如何使用一個大型數據集進行學習，然后將其轉移到你自己的小型訓練數據集中去。這就是Salesforce和Microsoft Azure的自定義視覺API的工作原理：你只需要30－50張圖像即可顯示想要分類的內容以獲得好的結果。
轉移學習讓你使用相對較少的數據就可以為你的問題定制預先訓練好的系統。
誤區4：任何人都可以建立一個機器學習系統
有很多用于機器學習的開源工具和框架，以及無數課程向教你如何使用機器學習。但機器學習仍然是一項專有技術；你需要知道如何準備數據并對其進行分區、訓練和測試，你需要知道如何選擇最佳算法以及使用何種啟發式算法，如何將其轉化為可靠的生產系統。你還需要監控系統以確保隨時間推移結果保持相關性；無論你所在市場的變化，還是你的機器學習系統足夠好，最終你都會遇到不同的客戶群，你需要持續檢查該模型是否與你的問題相一致。
正確利用機器學習需要經驗；如果你剛剛起步的時候，可以借助API預先訓練可以從代碼中調用的模型，同時聘用數據科學專家和機器學習專家來構建自定義系統。
誤區5：數據中所有模式都是有用的
哮喘患者、胸痛或心臟病患者、任何100歲以上老人的肺炎存活率遠高于預期。不錯，實際上，一套簡單的、設計可自動發送住院通知的機器學習系統可能會通知他們回家（一種基于規則的系統，用相同的數據進行訓練，就像神經網絡那樣）。之所以存活率這么高，是因為肺炎非常危險，患者會被立即送到醫院住院。
這個系統從數據中看到了一個有效的模式；這對于選擇誰需要住院來說并不是一種有用的模式（但是它可以幫助保險公司來預測治療費用）。更危險的是，你并不知道你的數據集中有這種無用的反數據集，除非你已經知道它的存在。
在其他情況下，一個系統可以學習一種有效的模式（比如一種有爭議的面部識別系統，可以從自拍中準確預測性取向），因為它沒有清晰而明顯的解釋，所以是無用的（在這種情況下，照片會顯示出一些社交線索，例如拍照姿勢，而不是顯示天生的某些特征）。
“黑匣子”模型是有效的，但沒有說清楚它們到底學到了什么模式。像通用附加模型這樣的則更透明一些，可理解的算法可以讓我們更清楚模型的學習內容，從而可以決定是否適合部署。
誤區6：隨時可以使用增強學習
如今幾乎所有在使用中的機器學習系統都采用了監督式學習；在大多數情況下，系統是基于明確標記的數據集進行訓練，在準備這些數據集的過程中人類也參與其中。組織這些數據集需要時間和精力，所以人們對非監督形式的學習、特別是強化學習（RL）有很大的興趣——強化學習是指學習者通過反復試錯，通過與環境交互、預測正確行為得到獎勵。 DeepMind的AlphaGo系統結合使用增強學習與監督式學習，擊敗高級Go玩家，而由卡內基梅隆大學團隊打造的Libratus系統結增強學習和其他兩種人工智能技術，在“無限注德州撲克”中擊敗了全球頂尖德撲選手。研究人員正在試驗將增強學習用于方方面面，從機器人到測試安全軟件。
但是在實驗室之外，增強學習并不常見。谷歌DeepMind通過學習如何更有效地進行冷卻，來降低數據中心的功耗；微軟采用了一個名為下文賭博機（Co