-
1 # AI應用前沿
-
2 # 小妹觀察
範圍太廣了,語音處理場景在大多數領域都需要,語言指令是人類對人工智慧的重要交流方式之一,智慧端接收語音,處理分析讀懂人類語言這是人工智慧重要體現。
1.場景主要有,情感對話、教育對話、問答等
2.人工智慧自我感知收集到語音之後進行大資料分析,進行自我識別,學習,自我決策,演化等。
3.設想一下一個寂寞的晚上一個人工智慧機器人陪你聊天將是怎樣的場景。
-
3 # 一個存在感小透明
研究生時期的課題是人工智慧與進化演算法結合從而提高演算法效能,期間也稍微瞭解過其他的人工智慧演算法,比如卷積神經網路之類的,工作後在大力發展AI的百度,因此也算有點了解,來給大家分享下我的看法。
應用場景百度科技園的大樓的電梯間電視常年播放百度的AI廣告,其中有一個是一年輕女子獨自到不說英語的滑雪勝地去旅行,本來因為語言不通而障礙頻頻,結果有了百度語音翻譯,一切問題迎刃而解,廣告語大概的意思是懂你的堅強,也願意武裝你的軟肋。
這就是人工智慧自然語言處理的一個重要場景,語言翻譯。除此之外,還有同聲傳譯,實時多語種翻譯等等。在未來,如果想要打造出一個完美的虛擬戀愛物件,那也一定要搭載上這個語言語義以及情緒識別的能力,才能更好的給使用者以溫柔的體驗。
已落地專案這個其實已經很久了,最出名的莫過於蘋果系統搭載的siri了,一句hey siri,就能喚來你的智慧管家,幫助你撥打電話,閱讀簡訊,地圖導航等等。
此外,iPhone現在的語音輸入功能也是自然語言處理的落地。中文同音不同意的字詞實在是太多了,但是iPhone的語音輸入卻能在你說了一大段語義連貫的句子之後,基本每個詞的準確率達到95%以上。已經是很了不起的進步了。
最後,國內很多智慧音箱也是自然語言處理的產物,比如天貓精靈,小米的小愛同學還有百度的小度音響等等,透過打通物聯網,或者線上音樂庫,能夠準確的識別你的要求,幫助你開關燈,開啟窗簾,播放音樂,制定鬧鐘等等。
學習哪些知識想要在自然語義處理(NLP)領域進行發展,那麼就需要將語句的理解定位於概念理解,並且建立了自然語言的“概念空間(程式碼)”。語句及自然語言的理解,其實就是從語言空間向語言“概念空間(程式碼)”的對映過程。這一處理方案,使計算機能夠進入自然語言的語義深層,在“懂”的基礎上完成對自然語言的各種處理。目前場景的用於NLP領域的演算法有卷積神經網路等等,相對來說也是比較複雜。
發展前景基於地球村這樣一個大前提,自然語言處理可以說是最貼近我們生活的一個人工智慧專案了,無論是家用物聯網,還是出國旅行,召開國際會議,自然語言處理都有它的用武之地,因此毋庸置疑,前景無限。
-
4 # 讀芯術
沒天賦別怕,NLP技術分分鐘讓你變身音樂大師全文共2760字,預計學習時長6分鐘或更長
機器學習演算法變革了視覺領域與NLP(自然語言處理)領域,那音樂領域呢?近年來,音樂資訊檢索(MIR)發展勢頭迅猛。本文將探討如何將NLP領域的技術應用到音樂領域。
近期, 在Chuan、Agres和 Herremans (2018)聯合發表的一篇論文中,他們論述了用Word2vec(NLP的一種常用工具)表示復調音樂的過程。下文將對該過程展開深入探究。
Word2vec有了詞嵌入模型,就可以用代表語義的向量來表示詞語,機器學習模型也能夠更輕鬆地對其進行處理。而托馬斯·米科洛夫等人在2013年提出的嵌入模型Word2vec,能夠高效地創造語義向量空間(Mikolov et al., 2013)。
Word2vec模型的本質是一個簡單的單層神經網路,該網路的構建方式有兩種:1) 使用連續詞袋(CBOW);2)使用Skip-gram 模型。這兩種方式效率都很高,訓練耗時也相對較短。此次研究用到了Skip-gram 模型,因為米科洛夫等人曾表示,該模型在處理較小的資料集方面更為高效。Skip-gram 模型選取當前詞w_t作為輸入層,並在輸出層context window(上下文視窗)顯示預測的關聯詞。
資料來自Chuan et al (2018)。上圖表示的是單詞t的預測結果及它的context window。
網上流傳的一些圖片讓人誤以為Skip-gram網路輸出的只是context window中的一個單詞,而非多個。那麼怎樣讓Skip-gram表示整個context window呢?
訓練Skip-gram網路時,我們使用了樣本對,包括當前輸入詞和從context window隨機選取的一個詞。Skip-gram的傳統訓練目標是使用Softmax函式計算
,但這種方法運算量過大,成本過高。所幸,噪聲對比估計 (Gutmann & Hyvärine, 2012)以及負取樣 (Mikolov et al, 2013b)能夠解決這一問題。先用負取樣大致定義一個新目標,即將真實詞的機率最大化,將噪聲樣本的機率最小化。之後只需要一個簡單的二進位制的邏輯迴歸,就能把噪聲樣本從真實詞中分離出來。
Word2vec模型經過訓練後,其隱層的權重主要表示經過學習的多維嵌入。
能否用單詞形式表示音樂?音樂與語言本質上是相互聯絡的。二者均包含遵循一套語法規則的連續事件。更重要的是,二者均能使人產生預想。比如,如果有人說:“我要去披薩店買個……”,顯然,你會預想他要買的是披薩。而如果有人現在哼一句“祝你生日”,然後戛然而止……正如話語一樣,旋律也能引起人的預想,而這些預想能夠透過腦電圖進行測量,比如測量大腦中事件的相關電位N400(Besson & Schön, 2002)。
既然語言與單詞間存在一定的相似度,那麼語言表示常用模型可否有效地表示音樂呢?為了將MIDI(音序)檔案轉換為“語言”,要對音樂“片段”進行定義,這裡的音樂片段相當於語言中的單詞。將資料集中的音樂全部切分為相同長度,相互間不重疊的片段,每個片段長度為一個節拍。每個節拍的長度由MIDI 工具箱進行估算,不同片段的節拍長度可以不同。所有片段音高的等級都會保留下來,這裡音高等級指的是不包含音階資訊的音高。
下圖為肖邦作品67第4首,即A小調第47號瑪祖卡舞曲第一小節,圖中展示瞭如何決定片段的長度。在這裡,一個節拍長度為一個四分音符。
資料來自Chuan et al (2018)——透過音樂片段創造詞。
Word2vec學習調性——音樂的分散式語義假設在語言中,分散式語義假設是向量嵌入的驅動力。根據該假設,“在同一上下文中出現的詞往往有相同的意思(Harris, 1954) ”。這些詞轉換到向量空間後,幾何位置相近。那麼Word2vec模型是否會用類似的方式表示音樂呢?
資料集
Chuan 等人用了包含八種不同音樂流派的MIDI 資料集,包含古典樂、重金屬樂,他們從130,000支曲子中根據流派分類挑選出23,178首作為資料集。在挑選出的曲子中,總共分出了4,076種不同的片段。
超引數
Word2vec模型的訓練只用到資料集中最常出現的500個片段(或詞),其他詞都用一個偽字代替。這一步驟提高了Word2vec模型的精確度,因為模型內的詞可以包含更多的資訊。此外還有其他超引數,如學習速率(設為0.1),window_size(設為4),訓練步驟的數量(設為1,000,000),嵌入大小(設為256)。
和絃
要評價Word2vec模型是否成功地獲取了音樂片段的語義,還需要了解和絃。
從音樂片段構成的詞彙表中,識別出所有包含三和絃的音樂片段。用羅馬數字標記這些片段的音級(這在樂理中很常見),比如,在C調中,和絃C為I級,和絃G為V級。之後,用餘弦距離計算在向量空間中,不同音級和絃的相互距離。
在一個N維空間中,兩個非零向量A和B之間的餘弦距離的計算方式為:
其中θ為A和B的夾角,Ds為餘弦相似度:
按樂理校對來講,I級和絃和V級和絃之間的“調性”距離應當小於I級和絃和III級和絃之間的“調性”距離。下圖表示一個C大調三和絃與其他和絃之間的距離。
資料來自Chuan et al (2018)——三和絃與主音和絃之間的餘弦距離=C大調三和絃。
顯然,I級三和絃與V級和絃, IV級和絃還有vi和絃之間的距離更小,這與音樂中這幾個和絃間“調性相近”的理論吻合。也就是說,Word2vec模型學會了表現音樂片段之間的關係。
Word2vec空間中和絃之間的餘弦距離似乎反映了和絃在樂理中的功能!
調
巴赫的十二平均律曲集(WTC)的24首前奏曲中,每首前奏曲都包含一個調,所以24首前奏曲涵蓋了包括大調和小調在內的全部24個調。對於新的嵌入空間是否獲取了有關調的資訊的問題,可以透過研究十二平均律曲集求證。
把資料集擴大後,十二平均律曲集的各個前奏曲都被轉換為其他大調或小調(取決於原來調的不同),導致每首前奏曲都出現了12種版本。將這些調的各個片段對映到先前訓練的向量空間,使用K-Means進行聚類,就得到了新資料集中不同前奏曲的質心。將這些前奏曲轉換為調,就保證了質心之間的餘弦距離僅受調的影響。
在不同調的前奏曲中,質心之間產生的餘弦距離如下圖所示。正如預期那樣,不同的五度和音的調性非常接近,圖中對角線旁邊較暗的區域即為證明。調性相差很大的調(例如F和F#)表現為橙色,說明Word2vec空間反映了調之間的調性距離,證實猜想成立。
資料來自Chuan et al (2018)——根據不同調的前奏曲之間的餘弦距離繪製的相似矩陣。
類比
關於Word2vec有一個有趣的影象,表現的是向量空間中,國王→女王,男人→女人之間的轉換過程 (Mikolov et al., 2013c),這也就說明了向量轉換能夠傳達意義。那麼向量是否也能傳達音樂中的意義?
首先,我們檢測了復調片段中的和絃,檢視從C大調到G大調(I-V)和絃對的向量。不同I-V向量之間的夾角非常相似(見右圖),甚至可以看作是五度和音構成的多維圓。這也再次證明,類比的概念可能存在於音樂領域的Word2vec空間中,但要得到更清楚的例子,還需要更多調查研究。
資料來自Chuan et al (2018)——和絃對向量之間的夾角。
其他應用-Word2vec能否生成樂曲?Chuan 等人 (2018) 簡單探討了Word2vec模型透過替代音樂片段來生成新的音樂的過程。他們表示,這只是一個初步測試,該系統可作為一種表示方法用於更綜合的系統中,如LSTM。論文中還有更多細節描述,在此不作贅述。下圖為研究結果。
資料來自Chuan et al (2018)——用幾何位置相近的片段進行替換。
結論
Chuan、Agres與Herremans (2018)建立了一個Word2vec模型,可以捕捉復調音樂的音調屬性,而無需將實際音符輸入模型之中。他們的論文有力地證明了,在詞嵌入中能夠找到關於調與和絃的資訊。那麼可否用Word2vec表示音樂呢?答案是肯定的,可以用Word2vec表示復調音樂。這就打開了一種新思路:還可以將這種表現形式嵌入其他模型中,用以捕捉音樂的時間資訊。
我們一起分享AI學習與發展的乾貨
-
5 # HelloNLP
主要有以下7種不同的應用:
1. 文字分類
文字分類Text ClassificaTIon
文字分類是指給定一個文字,預測其所屬的預定類別。
2. 語言建模
語言建模真的是一個很有趣的自然語言問題的子任務,特別是在其他一些任務的基礎上調節語言模型。
“問題是預測出給定單詞的下一個單詞。 該任務是語音或光學字元識別的基礎,也用於拼寫校正,
手寫識別和統計學的機器翻譯。
3. 語音識別
語音識別是解決如何理解人類所說的問題。
“語音識別的任務是將包含口語在內的自然語言的聲學訊號轉換成符合說話者預期的相應的單詞序列。”
4. 說明生成
說明生成是解決如何描述影象內容的問題,依照諸如照片等的數字影象生成和影象內容相關的文字描述。
說明生成的語言模型用於根據影象生成標題,一些具體的應用包括:
描述場景的內容
建立照片的標題
描述影片
5. 機器翻譯
機器翻譯是指將一種語言的源文字轉換為另一種語言。
“機器翻譯,從一種語言到另一種語言的文字或語音的自動翻譯,是NLP最重要的應用之一。”
6.文件總結
文件總結是指根據文字建立對應簡短描述的任務。其語言模型用來輸出基於完整文件的總結。
相關應用如下:
·建立文件標題。
·生成文件摘要。
7. 問題回答
問題回答是指給出一個主題(如文字文件)回答有關該主題的具體問題。
“問答系統,它透過返回相應的短語(例如位置,人物或日期)來嘗試回答以問題形式提出的使用者查詢。
例如,問題為什麼殺死肯尼迪總統? 可能得到名詞短語奧斯瓦爾德作答案”
回覆列表
自然語言處理技術在 電力行業 的 應用分佈
具體應用案例如下:
• 電網檢測警報
傳統的電網檢測警報無法對在短時間內對發生的警報事件做出準確的判斷。鑑於目前監測報警資訊效率低的現狀,人工智慧技術為電網業務提供了有效的解決方案。首先,透過自然語言處理技術對報警資訊文字的特徵進行分析和整理,並做好預處理工作。基於Word2vec模型對監視警報資訊進行向量化,最後,針對報警資訊的特點,建立了基於LSTM和CNN組合的監控報警事件識別模型。該模型可以透過與多種識別模型的比較,以驗證本文方法的可行性和有效性。
• 智慧電網檢修問答系統
透過機器閱讀理解技術將電網安規的文件進行讀取和分析,然後把文件中的段落建索引。電網維修人員可以透過自然語言問答的形式提出問題,並得到相關的答案指導。當維修人員向系統提問後,系統會先在索引裡搜尋相關段落,再從找到的段落中讀出問題答案。搜尋返回的是段落,系統將段落內容轉精煉成回答短語,返回輸出給維修人員。系統會理解文字內容,之後再抽取原文的一部分內容作為答案輸出。系統依賴bert 模型預測出來文章當中哪一段能回答這個問題的機率最高。(學術的閱讀理解資料集上,人能做到86.8, 最好的模型做到88.6了)
• 渠道客戶偏好分析系統
對於渠道客戶的管理是電網行業當中的一個重要環節。透過自然語言處理技術,可以有效的提高電力公司對渠道客戶的管理工作。智慧渠道客戶偏好分析系統能夠通從客戶對接業務專案的文字資訊中識別客戶對各種渠道使用的喜好程度、客戶與電網企業互動的活躍程度、客戶關注偏好類別, 有針對性地引導客戶進行渠道轉移, 減少渠道服務成本。自然語言處理技術還能從客戶服務相關的語料資料中發現客戶投訴傾向分析指識別客戶投訴特徵及變化規律, 對營銷業務、客戶基礎資訊與客戶投訴之間進行關聯分析。結合客戶服務歷史及歷史滿意度評價情況, 對服務過程中因服務行為、供電質量等服務質量引起的投訴和滿意度評價較低的資訊進行分析, 找出關聯關係。