人類的語言充滿了歧義,這使得編寫準確確定文字或語音資料預期含義的軟體變得異常困難。
諧音,同音詞,諷刺,成語,隱喻,語法和用法例外,句子結構的變化-這些只是人類語言中的一些不規則現象,需要人類花費多年的時間來學習
作為人類,您可以說,說或寫英語,西班牙語或中文。但是,計算機的本地語言(稱為機器程式碼或機器語言)在大多數人中是很難理解的。在計算機裝置的最初時期,通訊不是透過單詞進行的,而是透過數百萬個產生邏輯操作的零和一個進行的,為了解決以上問題,加上人工智慧領域的發展,自然語言處理(NLP)被重視並且大力開發相關技術
1954年1月7日,美國喬治敦大學和IBM公司合作實驗成功地將超過60句俄語自動翻譯成英語。雖然當時的這個機器翻譯系統非常簡單,僅僅包含6個語法規則和250個詞,但由於媒體的廣泛報道,紛紛認為這是一個巨大的進步,導致美國政府備受鼓舞,加大了對自然語言處理研究的投資。實驗完成者也當即自信地撰文稱,在三到五年之內就能夠完全解決從一種語言到另一種語言的自動翻譯問題。他們認為只要制定好各種翻譯規則,透過大量規則的堆砌就能夠完美地實現語言間的自動翻譯
自然語言處理(NLP)距離我們遙遠嗎?
簡而言之,NLP表示自動處理自然的人類語言,例如語音或文字,儘管概念本身很有趣,但該技術背後的真正價值來自與各行各業的應用。
NLP可以幫助您完成許多工,並且應用領域似乎每天都在增加。讓我們舉一些例子:
1, 醫學臨床:
NLP可以基於電子健康記錄和患者自己的語音來識別和預測疾病。例如,Amazon Comprehend Medical是一項使用NLP從患者病例記錄,臨床試驗報告和其他電子健康記錄中提取疾病狀況,提供準確的藥物和治療結果的服務。
2,社交媒體/市場/整合營銷:
3,資訊搜尋:
IBM的一位發明家開發了一種認知助手,該認知助手通過了解所有有關您的資訊,然後像個性化搜尋引擎一樣工作,然後使您想起名字,歌曲或任何您想不起來的東西。
4,企業郵件處理:
諸如Yahoo和Google之類的公司透過分析流經伺服器的電子郵件中的文字並在垃圾郵件甚至沒有進入收件箱之前就停止了垃圾郵件處理,從而使用NLP對電子郵件進行過濾和分類。
5,傳媒新聞業:
6,手機移動端裝置:
亞馬遜的Alexa和蘋果的Siri就是智慧語音驅動介面的建立,這些介面使用NLP語音提示,並進行各種操作,例如找到特定的商店,告訴我們天氣預報,建議到達辦公室的最佳路線或在家中開啟燈。
7,金融交易:
8,人力資源領域:
NLP還被用於人才招聘的搜尋和甄選階段,確定潛在員工的技能,並在潛在人才活躍於就業市場之前對其進行發現。
9,法律行業:
在IBM Watson NLP技術的支援下,LegalMation開發了一個平臺來自動執行常規訴訟任務,並幫助法律團隊節省時間,降低成本並轉移戰略重點。
10,醫療保健行業:
NLP在醫療保健行業尤其蓬勃發展。在醫療機構正越來越多地採用電子病歷的同時,這項技術正在改善護理服務,疾病診斷並降低成本。可以改善臨床資料意味著可以透過更好的醫療保健更好地瞭解患者並從中受益。
一般而言,NLP任務將語言分解成較短的基本部分,試圖理解各個部分之間的關系,並探索這些部分如何協同工作以創造意義。
這些基礎任務通常用於更高級別的NLP功能,例如:
• 內容分類。基於語言的文件摘要,包括搜尋和索引編制,內容警報和重複檢測
• 資訊發現和建模。準確地捕獲文字資訊中的含義,並將高階分析應用於文字,例如最佳化和預測
• 上下文提取。自動從基於文字的源中提取結構化資訊
• 情緒分析。在大量文字中識別情緒或主觀意見,包括平均情緒和觀點挖掘
• 語音到文字和文字到語音的轉換。將語音命令轉換為書面文字,反之亦然。
• 檔案摘要。自動生成大文字正文的摘要
• 機器翻譯。自動將文字或語音從一種語言翻譯成另一種語言
對於自然語言處理(NLP)技術研究的主力軍來自於全球各所高校,新一代的人才培養至關重要,我們就此來了解一下全球頂級大學的研究專案:
1, 斯坦福大學:
深度學習自然語言處理
探索NLP的基本概念及其在當前和新興技術中的作用。您將全面瞭解用於語言資訊處理的現代神經網路演算法。透過掌握最先進的方法,您將獲得從單詞表示和句法處理轉向設計和實現複雜的深度學習模型的技能,以用於問題回答,機器翻譯和其他語言理解任務
您將學到什麼
• 自然語言的計算特性
• 用於語言理解任務的神經網路模型
• 詞向量,句法和語義處理
• 共指,問題解答和機器翻譯
https://online.stanford.edu/courses/xcs224n-natural-language-processing-deep-learning
2, 哥倫比亞大學:
自然語言處理
NLP @ CU組由七名高階研究人員組成,他們是多個專案的首席研究員,併為各個層次的研究生提供建議。在任何一年中,博士學位數量 學生人數從大約15到25,而且碩士生的數量要大得多。其他成員包括博士後研究員,訪客,本科生研究助理和顧問
哥倫比亞大學特別擅長的領域包括:
• 音韻學,韻律
• 形態學
• 語法和解析
• 詞法語義,詞義歧義
• 語篇處理,語篇共指
• 對話,口語
• 體裁,方言變化
• 生成,總結,問題解答
• 資訊提取,資料探勘
• 機器翻譯
• 語言和社交網路
• 阿拉伯語NLP
• 語言資源的建立,例如語料庫,詞彙
• 對自然語言處理技術,資源和人類語言使用的評估
3, 哈佛大學:
我們小組的研究出版文章和開放原始碼專案的重點是文字摘要,神經機器翻譯,視覺化遞迴神經網路,縮小神經網路的演算法,文件中實體跟蹤的模型,多模式文字生成,語法錯誤糾正和新方法用於文字生成
https://nlp.seas.harvard.edu/
4, 德克薩斯大學奧斯汀分校:
自然語言處理
側重於使用統計方法和深度學習的現代自然語言處理。解決的問題包括文字的句法和語義分析以及情感分析,問題回答和機器翻譯等應用程式。涵蓋的機器學習概念包括二進位制和多類分類,序列標記,前饋,遞迴和自我關注的神經網路,以及預訓練/轉移學習
https://www.cs.utexas.edu/graduate-program/masters-program/online-option/courses/natural-language-processing
5, 加州大學伯克利分校:
深度學習和自然語言處理
本課程廣泛介紹了語言現象,以及我們嘗試透過機器學習對其進行分析的嘗試。我們將涵蓋廣泛的概念,重點是實際應用,例如資訊提取,機器翻譯,情感分析和摘要
https://ischoolonline.berkeley.edu/data-science/curriculum/natural-language-processing/
6, 哈佛大學:
自然語言處理
課程的絕大部分內容都集中在應用流行的文字挖掘方法上。結果,目標受眾可能還包括定性研究人員,他們希望在訪談,媒體和其他基於語言的現場研究中新增定量分析
https://online-learning.harvard.edu/course/introduction-natural-language-processing?delta=0
(以上想更多瞭解美國大學相關研究專業的同學們可以聯絡我)