深度神經網絡的爆發使得機器學習受到了廣泛的關注, 而NLP(自然語言處理)又是其中最受關注的部分 。ThoughtWorks正在嘗試NLP技術的商業化落地,例如對話機器人、針對特定領域的機器翻譯等 ?;贜LP的重要性和其最近幾年的飛速發展, 它成為了人們經常會討論的一個流行話題 。對于專業人士來說, 通常會聊到詞向量, LSTM, attention等技術 。但是作為一個非NLP專家, 我們要聊些什么呢?或者說我們應該學些什么呢?本文就從應用角度來總結一下自然語言處理能做哪些事, 以及在我眼中NLP有潛力去做哪些事,幫助大家建立對NLP技術初步的理解 。
NLP能做哪些事?
NLP的集大成者 – 語音助手

文章插圖
人類研究語音助手已有幾十年的歷史, 在科幻電影中也常有提及,不過直到2011年,蘋果發布Siri, 這種神秘的工具才獲得了大眾的關注 。在Siri之后, 涌現出了以Amazon Alexa, Google Assistant, Microsoft Cortana為代表的一大票語音助手 。早期的語音助手功能十分有限, 也很少有人使用 。經過了這些年的發展, 現在的語音助手已經有了很大的進步, 已經能很好地處理天氣查詢, 信息檢索, 添加日程, 播放音樂等簡單任務 。此外, 部分語音助手還支持聲紋識別, 提升了安全性 。如果你最近沒有使用過上述的語音助手, 我強烈建議你去試用一下!
盡管NLP在語音助手應用中發揮了重要作用,但仍然不足以支撐這樣一個復雜的綜合性系統 。語音助手基本上使用了下文中提到的所有NLP技術以及很多其他非NLP技術 。創建一個完整的語音助手需要大量的資源, 是一個門檻很高的領域 。
基于文本分類的應用
文本分類就是將非結構化文本數據劃分到事先定義好的標簽類中, 這是NLP技術的一大分支, 很多其他技術都依賴于它 。由于分類任務不同, 標簽的定義也不同, 比如在綜合用戶評論分析中, 標簽可以定義為 “負面”, “中性”, “正面” 。而在酒店評論分析中就可以把標簽定義為”服務好”, “環境好”, “環境差”等 。

文章插圖
由于標簽體系可以靈活調整, 文本分類被廣泛應用到眾多領域中, 下面列出一些典型的應用:
垃圾郵件的檢驗:垃圾郵件檢測的方法有很多, 其中一類就是利用文本分類技術來過濾垃圾郵件 。
新聞自動分組:對于分類新聞網站, 將新聞歸類展示是一項消耗巨大的任務, 這里可以通過自動文本分類技術來自動化這一操作, 提升分類效率和用戶閱讀體驗 。
用戶情感分析(評論傾向性分析):通過對用戶評論進行分類(高興or失望)處理, 可以得到用戶對商家的態度, 該方法已經在許多點評類應用中得到使用 。
文檔自動標簽, 搜索引擎優化(SEO):通過文檔自動分類得到新聞或web頁面的標簽, 將這些標簽加入到網站的Head中能夠起到優化搜索引擎排名的作用 。
基于命名實體識別(NER)的應用
命名實體識別的目標是定位文本中出現的預定義分類, 包括人名, 組織名稱, 地名, 日期和時間, 數量等等 。下面以一個例子來具體說明:
原文:
“Jim bought 300 shares of Acme Corp. in 2006.”
標注后(括號內為實體類型):
“[Jim](Person)bought 300 shares of [Acme Corp.] (Organization)in [2006](Time).”
NER也有應用場景,下面是幾個例子:
新聞標注:和文本分類不同, 這里可以使用NER技術將與文章相關的人物, 地點都以標簽的形式標注出來, 方便用戶對某個人物或地點進行索引 。
搜索引擎:可以通過使用命名實體識別來抽取web頁面中的實體, 后續可以使用這些信息來提高搜索效率和準確度 。
從商品描述中自動提取商品類別, 品牌等信息, 提高貨物上架效率, 在咸魚等應用上已經實現了類似功能 。
工具易用性提升, 例如從短信息或郵件中提取時間和地點等實體, 從而實現點擊時間直接創建日歷, 點擊地址直接跳轉到地圖App等便捷操作 。
其他

文章插圖
除了上面說到的幾種分類之外, NLP還能做很多厲害的事情:
機器翻譯:機器翻譯是語音助手外另一個為大家熟知的NLP應用, 也是商業化最早的NLP應用 。金山快譯作為當年機器翻譯市場的佼佼者是我最早接觸到的幾款軟件之一 。機器翻譯剛出現時準確性較低, 不過隨著近年來深度神經網絡在機器翻譯領域的成功應用, 目前的機器翻譯已經有了很高的可用性 。Google translate已經率先在生產環境部署了基于深度神經網絡的翻譯工具,是這方面的杰出代表 。
拼寫檢查(拼寫糾錯):包括單詞拼寫檢查, 句子正確性檢查 。拼寫檢查在搜索引擎上得到廣泛應用, 當你在百度搜索”自然寓言處理”的時候, 百度會自動顯示”自然語言處理”的相關結果 。除了搜索引擎外, 拼寫檢查也廣泛應用在各種文字處理系統中 。
NLP有希望做哪些事?
上面講了很多應用案例, 其中大部分已經比較成熟甚至已經投入到了商業應用中 。下面再羅列一些我認為目前不是很成熟但是很有潛力的NLP技術:
句子, 段落的相似性檢測:詞語的相似度檢測已經很成熟, 句子和章節的相似性檢測的研究也在進行中 。相似性檢測有很廣的應用空間, 可以用來解決問答論壇上重復問題, 文章抄襲問題等 。
自動文本摘要:即為文章生成一個簡短的總結性段落 。當我們寫文章時很多人會寫一個TLNR(太長不讀版), 文本摘要技術可以自動為我們生成這個TLNR, 節省我們的時間 。在信息爆炸時代, 文本摘要技術有著巨大的潛力 。
自動問答:該技術的價值無需贅述, 不過目前的問答機器人都只能在特定領域回答一些簡單地問題, 通用的問答機器人目前還無法實現, 這將是一個巨大的挑戰 。該領域的一款落地應用來自Google, 在其郵件應用Inbox中已經開始提供郵件快速回復功能(根據郵件自動生成三個可能的回復供用戶選擇), 雖然目前生成的回復都很簡短, 但已經有了一定的實用性 。
總結

文章插圖
【NLP能做哪些事 金山快譯軟件怎么使用】上面介紹了幾種NLP技術和應用場景, 但是NLP技術涉及的范圍遠不止這些, 將NLP技術與音頻處理、圖像處理等技術結合, 又會出現諸如視頻字幕生成, 圖片描述生成等等有趣的應用 ??梢哉f只要有人類, 有語言, 就存在NLP應用的可能性 。也正是因為NLP技術涉及范圍廣泛,才吸引了越來越多企業的關注,并在其之上構建各種智能系統,給我們的生活帶來了便利 。
- 食用菌類喜陰,蕨類、大白菜、花椰菜、蘿卜等屬耐陰蔬菜 喜陰和喜陽的蔬菜有哪些
- 春播桃李三千圃,秋來碩果滿神州,哺育了春日剛破土的嫩苗,是誰 對老師的問候語有哪些
- 天津小車限號范圍為整個天津的外環線以內 天津哪些區域不限號
- 地形逆溫和鋒面逆溫的區別 簡述形成逆溫的條件有哪些
- 英語四級需要掌握語法嗎 英語四級需要掌握哪些語法
- 老撾有糯米飯、竹筒飯、臘普、舂木瓜、考頓、皮阿、燒烤等出名的 老撾有哪些出名的美食
- 上海亞東圖書館出版的《行知詩歌前集》 陶行知的作品有哪些
- 有哪些有趣的新特權 黃鉆怎么續費
- 魔獸的活躍角色有哪些 奪日者龍鷹是哪掉的
- 哪些路徑最為方便 魔獸世界暴風城到暮光高地傳送門在哪里
