隨著人工智慧技術的發展,越來越多的真人客服坐席被智慧語音客服代替。對語音互動來說,語音識別技術(Automatic Speech Recognition,ASR)相對而言比較成熟了,在一些合作式互動場景(例如,語音轉文字系統)下,確實可達到95%以上的準確率,但落地於實際專案(例如,智慧語音客服系統),80%的準確率都很難達到,究其原因,實際應用中,人們說話都很隨意,存在口音、噪音以及語言領域差異這些客觀因素的影響,屬於非合作互動方式,效果自然差很多。
智慧語音客服系統應用於實際場景,所採集到的語音資訊是一種非語義符號表示和非結構化的二進位制資料流,主要包括三大方面的資訊:
1. 語音中包括的內容資訊(語言文字資訊)
2. 語音混雜在一起的背景環境聲音資訊
3. 語音中含有與說話人特徵相關的資訊(如性別、年齡以及情感狀態等)
由於環境噪聲、通道噪聲等噪聲問題,口語對話語音的形式多樣性,例如方言,口語助詞、遲疑、重複與停頓造成的語音不流暢,多個說話人重疊,以及句子邊界定義模糊等,容易導致實際應用環境中智慧語音客服機器人的表現不盡如人意,在收到非預期輸入時也僅根據最大似然的識別結果將文字送給後續的語義理解模組處理並做出互動動作,容易導致語音互動流程不可控,嚴重影響互動體驗。一款具有溫情的智慧語音客服機器人應該像人一樣能夠同時識別出說話人所講的內容、其身份、年齡、性別、情感狀態甚至背景聲等多維資訊,並透過置信度評價來衡量前端識別的可靠性,對於那些可能是錯誤的結果,加以特別的處理,或者將之完全捨棄,讓系統僅接受正確的部分,在很大程度上可拓展語音識別的應用範圍。
音訊檢索經常作為說話人檢測與跟蹤或語音識別相關係統的前端,用以檢測出包含語音的音訊片段,提供高質量的語音給後面的系統做進一步處理,這對於構建一種全新的多維語音資訊識別系統具有十分重要意義。
音訊語義內容是透過對音訊資料的分析獲得音訊中的一些特定語義內容。原始音訊是非結構化的資料流,無法直接從中提取有意義的語義內容,這就需要對原始音訊按一定語義內容進行時域上的分割,即音訊結構分析。結構分析的任務是將組成音訊的音訊幀序列分割成時間上連續的幾個集合,每個集合是一個內容上相對獨立的、連續的結構單元。時間粒度較小的結構單元,雖然技術處理更為方便,但由於時間粒度過小,很難從中提取有價值的內容語義時間粒度過大的結構單元,雖然可以從中提取較完整的語義內容,但根據現有的技術對這樣的結構單元直接處理是難於實現的。因此,音訊結構分析應該整合不同時間粒度的結構單元,從低到高分層實現。
本文定義如下具有不同時間粒度的音訊結構單元:
音訊幀(frame):音訊是一個非平穩隨機過程,其特性是隨時間變化的,但這種變化是很緩慢的。鑑於此,可以將音訊訊號分成一些相繼的短段進行處理。這些短段一般長20~30ms,稱為音訊幀,是音訊處理中的最小單元。
音訊段(clip):由於音訊幀的時間粒度太小,很難從中提取有意義的語義內容,所以需要在幀的基礎上定義時間粒度更大的音訊結構單元(通常比幀長大若干個數量級),本文稱之為音訊段。clip由若干幀組成,時間長度一定,是本文中音訊分類的基本物件,具有一定語義,如語音clip,音樂clip等。clip的特徵在音訊幀特徵的基礎上計算得到。
音訊鏡頭(shot):這是從影片鏡頭引申過來的概念。由於clip太短,不適合進行語義內容分析。本文中定義含有同種音訊類別的音訊結構單元為音訊鏡頭,音訊鏡頭由若干相同類別的clip組成,時間粒度更大,時間長度不定,是音訊分割的結果。具有一定的語義,如環境音鏡頭,音樂鏡頭等。
音訊高層語義單元由音訊鏡頭的不同組合形成的具有完整豐富語義內容的音訊結構單元。根據需要可以有多層。它的分析是以下層單元為基礎的,是音訊結構化的目標。
上述這些結構單元是層次化音訊結構組成要素,描述了音訊結構化從低到高不斷提升的過程。音訊幀和音訊clip是特徵抽取物件,其中clip的特徵在音訊幀特徵的基礎上計算得到;音訊段是音訊分類物件,該層次上得到的是經過類別標註的音訊clip序列;相同類別的clip序列構成音訊鏡頭,採用的相關技術是音訊分割技術;音訊clip和音訊鏡頭都具有一定的語義,主要是類別資訊。不同的音訊結構的不同組合形成高層音訊結構單元,是具有完整豐富語音內容的音訊物件。
隨著智慧語音客服機器人產業的迅速發展,各種人機互動音訊資料的數量非常龐大,因此有效管理、檢索音訊資料變得非常重要。解決大規模音訊資料庫的快速檢索的有效手段之一是建立合適的音訊索引,其中音訊分割和標註是建立音訊索引的基礎。因此音訊檢索技術研究對構建多維語音資訊識別系統具有十分重要意義。
隨著人工智慧技術的發展,越來越多的真人客服坐席被智慧語音客服代替。對語音互動來說,語音識別技術(Automatic Speech Recognition,ASR)相對而言比較成熟了,在一些合作式互動場景(例如,語音轉文字系統)下,確實可達到95%以上的準確率,但落地於實際專案(例如,智慧語音客服系統),80%的準確率都很難達到,究其原因,實際應用中,人們說話都很隨意,存在口音、噪音以及語言領域差異這些客觀因素的影響,屬於非合作互動方式,效果自然差很多。
智慧語音客服系統應用於實際場景,所採集到的語音資訊是一種非語義符號表示和非結構化的二進位制資料流,主要包括三大方面的資訊:
1. 語音中包括的內容資訊(語言文字資訊)
2. 語音混雜在一起的背景環境聲音資訊
3. 語音中含有與說話人特徵相關的資訊(如性別、年齡以及情感狀態等)
由於環境噪聲、通道噪聲等噪聲問題,口語對話語音的形式多樣性,例如方言,口語助詞、遲疑、重複與停頓造成的語音不流暢,多個說話人重疊,以及句子邊界定義模糊等,容易導致實際應用環境中智慧語音客服機器人的表現不盡如人意,在收到非預期輸入時也僅根據最大似然的識別結果將文字送給後續的語義理解模組處理並做出互動動作,容易導致語音互動流程不可控,嚴重影響互動體驗。一款具有溫情的智慧語音客服機器人應該像人一樣能夠同時識別出說話人所講的內容、其身份、年齡、性別、情感狀態甚至背景聲等多維資訊,並透過置信度評價來衡量前端識別的可靠性,對於那些可能是錯誤的結果,加以特別的處理,或者將之完全捨棄,讓系統僅接受正確的部分,在很大程度上可拓展語音識別的應用範圍。
音訊檢索經常作為說話人檢測與跟蹤或語音識別相關係統的前端,用以檢測出包含語音的音訊片段,提供高質量的語音給後面的系統做進一步處理,這對於構建一種全新的多維語音資訊識別系統具有十分重要意義。
音訊語義內容是透過對音訊資料的分析獲得音訊中的一些特定語義內容。原始音訊是非結構化的資料流,無法直接從中提取有意義的語義內容,這就需要對原始音訊按一定語義內容進行時域上的分割,即音訊結構分析。結構分析的任務是將組成音訊的音訊幀序列分割成時間上連續的幾個集合,每個集合是一個內容上相對獨立的、連續的結構單元。時間粒度較小的結構單元,雖然技術處理更為方便,但由於時間粒度過小,很難從中提取有價值的內容語義時間粒度過大的結構單元,雖然可以從中提取較完整的語義內容,但根據現有的技術對這樣的結構單元直接處理是難於實現的。因此,音訊結構分析應該整合不同時間粒度的結構單元,從低到高分層實現。
本文定義如下具有不同時間粒度的音訊結構單元:
音訊幀(frame):音訊是一個非平穩隨機過程,其特性是隨時間變化的,但這種變化是很緩慢的。鑑於此,可以將音訊訊號分成一些相繼的短段進行處理。這些短段一般長20~30ms,稱為音訊幀,是音訊處理中的最小單元。
音訊段(clip):由於音訊幀的時間粒度太小,很難從中提取有意義的語義內容,所以需要在幀的基礎上定義時間粒度更大的音訊結構單元(通常比幀長大若干個數量級),本文稱之為音訊段。clip由若干幀組成,時間長度一定,是本文中音訊分類的基本物件,具有一定語義,如語音clip,音樂clip等。clip的特徵在音訊幀特徵的基礎上計算得到。
音訊鏡頭(shot):這是從影片鏡頭引申過來的概念。由於clip太短,不適合進行語義內容分析。本文中定義含有同種音訊類別的音訊結構單元為音訊鏡頭,音訊鏡頭由若干相同類別的clip組成,時間粒度更大,時間長度不定,是音訊分割的結果。具有一定的語義,如環境音鏡頭,音樂鏡頭等。
音訊高層語義單元由音訊鏡頭的不同組合形成的具有完整豐富語義內容的音訊結構單元。根據需要可以有多層。它的分析是以下層單元為基礎的,是音訊結構化的目標。
上述這些結構單元是層次化音訊結構組成要素,描述了音訊結構化從低到高不斷提升的過程。音訊幀和音訊clip是特徵抽取物件,其中clip的特徵在音訊幀特徵的基礎上計算得到;音訊段是音訊分類物件,該層次上得到的是經過類別標註的音訊clip序列;相同類別的clip序列構成音訊鏡頭,採用的相關技術是音訊分割技術;音訊clip和音訊鏡頭都具有一定的語義,主要是類別資訊。不同的音訊結構的不同組合形成高層音訊結構單元,是具有完整豐富語音內容的音訊物件。
隨著智慧語音客服機器人產業的迅速發展,各種人機互動音訊資料的數量非常龐大,因此有效管理、檢索音訊資料變得非常重要。解決大規模音訊資料庫的快速檢索的有效手段之一是建立合適的音訊索引,其中音訊分割和標註是建立音訊索引的基礎。因此音訊檢索技術研究對構建多維語音資訊識別系統具有十分重要意義。