-
1 # N型工作室
-
2 # 鬍子—拉碴
人類談話涉及雙向溝通的方式,聊天機器人也一樣,只是溝通渠道略有不同——您是與機器交談。當給機器人傳送訊息時,它會將其拾取並使用NLP,機器將文字轉換為自身的編碼命令。然後將該資料傳送到決策引擎。
在整個過程中,計算機將自然語言轉換為計算機理解的語言,處理,識別語音。語音識別系統常用的是Hidden Markov模型(HMM),它將語音轉換為文字以確定使用者所說的內容。透過傾聽您所說的內容,將其分解為小單元,並對其進行分析以生成文字形式的輸出或資訊。
此後的關鍵步驟是自然語言理解(NLU),如上文所說,它是NLP的另一個子集,試圖理解文字形式的含義。重要的是計算機要理解每個單詞是什麼,這是由NLU執行的部分。在對詞彙、語法和其他資訊進行篩選時,NLP演算法使用統計機器學習、應用自然語言的語法規則,並確定所說的最可能的含義。
另一方面,NLG是一種利用人工智慧和計算語言學生成自然語言的系統。它還可以將該文字翻譯成語音。NLP系統首先確定要翻譯成文字的資訊,然後組織表達結構,再使用一組語法規則,NLG就能系統形成完整的句子並讀出來
-
3 # 嘻哈
你的言語是固定的情形,你可以直接用錄製整段語音後,播放的方式,就像mp3/wav播放一般,簡易單調,也就是你的方法一,如果希望回答複雜的言語,則需要大量的庫(硬體)另一種類似方法,但他儲存的不是一整句話,而是音標/字根,不需要大量的庫(硬體)如果希望回覆較複雜的言語,則需要特別的演算法來完成組合,諸如到(d a o),所以,演算法複雜度在於如何找到想要發出的語音,並找到對應的字根。
就像人在打字時,腦子裡想的一樣,找到對應的字根並組合成一個字,甚至一句話。
這樣的方法,甚至可以延伸至控制速度和音量來表達情緒。
-
4 # 南山之永生
一般智慧語音助理或語音機器人工作原理大致如下:
第一階段:語音到文字的過程。訊號源→裝置(捕獲音訊輸入)→增強音訊輸入→檢測語音→轉換為其他形式(如文字)
第二階段:響應過程。處理文字(如用NLP處理文字,識別意圖)→操作響應。
在檢測語音過程中,就包括分辨是否為語音訊號,該過程會透過指定的頻率對模擬訊號進行取樣,將模擬聲波轉換為數字資料。這一過程很重要,是否成功地識別語音。如果生成數字資料都是錯誤的,那麼後期的處理響應那肯定是錯的。這也是影響智慧語音助理或語音機器人識別率的重要因素。
在這個過程,用於語音處理的技術是語音活性檢測 (Voice activity detection,VAD),目的是檢測語音訊號是否存在。 VAD技術主要用於語音編碼和語音識別。它可以簡化語音處理,也可用於在音訊會話期間去除非語音片段:可以在IP電話應用中避免對靜音資料包的編碼和傳輸,節省計算時間和頻寬。
回覆列表
非專業。看過語言識別技術的相關技術,主要運用在翻譯上面。如果這個讓我實現。那思路是,收集中文文字發音,建立文字發音字典庫。一個文字對應N個發音數字(音料的儲存方式,一定是便於數字化分析的)。這樣,機器人的發音根據設定的語句是很好實現的,難點在於發音的連貫性和自然性。反過來把錄入的語音轉化為文字,需要用到統計學和機率論的方法進行分析。把發聲相似性出現最高機率的語音提取出來找到對應文字並輸出。
現在的語音語言識別轉化或者是智慧都離不開統計學和機率論。這種方法雖然不能達到100%,準確率高,效果理想。也是未來智慧發展的基石。