如上圖,我們透過微信傳送了一段語音,在對語音進行轉文字時。語音識別引擎首先會將把這段語音進行分幀(切分成若干小段),然後利用聲學模型將提取的每一幀的聲學特徵識別為一個個“狀態”,多個狀態會組合成一個音素(語音中的最小的單位),音素構成了諸多同音字,再利用 語言模型 從諸多同音字中挑選出可以使 語義完整的字(例如 不會把“吃飯”識別成“痴泛”),最後將文字展示出來。
如何將上述過程從質量的角度刻畫出來,是本框架解決的主要問題。同時,AI演算法測試依託純手工測試、亦或是半自動化測試所面臨著在執行效率、結果可靠性方面的侷限性較大,本框架也是從手動、半自動測試轉變為全自動、智慧化測試的一次嘗試。
我們需要解決的重點問題基於文字相似度計算及標註質量風險等級閾值設定,實現語音標註質量的風險自動評估。基於SER(句錯誤率)、WER(字錯誤率)、字錯誤前提下的音節錯誤率、字錯誤且音節正確前提下的音調錯誤率 指標,實現宏觀指標的自動評估(每條標註資訊分析精確到每個字的結果分析(正確、編輯、刪除、插入)、每個錯字的音節、音調分析)。基於標註資料意圖(場景)的劃分,實現各意圖指標的自動評估。基於標註資料各維度(如,發音人性別、信噪比等),實現各維度指標的自動評估。基於由字元到音節再到音調的深層次的啟發式分析,更好的啟發測試同學發現問題。重難點分析
重點分析
給出宏觀的WER、SER指標結果,以及每條標註的資料WER結果。給出不同維度的WER、SER指標結果,並且與期望指標值進行比對,給出結論。難點分析
1 如何實現標註質量的自動評估
標註質量差意味著期望值錯誤,將直接決定了後續統計結果的可靠性,音訊的標註進行質量評估是開展統計分析的前提。因此需要實現對所有標註資料進行標註質量風險評級,並輸出整體標註質量情況。
標註文字(預期): 二三四五六七八九十 識別文字(實際): 一二三四五七捌九玖十
透過人工判斷可以得出:
“捌” 屬於編輯是因為在識別文字中,“捌”前面是“七”、後面是“九”。而標註文字的七和九之前剛好有一個字,因為這個字和捌不一樣,所以是編輯。“玖”屬於插入是因為在識別文字中,“玖”前面是“九”後面是“十”,而標註文字“九”和“十”之間沒有任何字,所以是插入。3 如何實現基於字錯實現由字、到音節、再到音調的深層次分析挖掘,例如,按照如下梯度進行分析:
效果
測試框架透過配置待測試的標註資料集,自動實現以下結果的輸出。
1 模型宏觀指標
宏觀指標包含 質量風險評估、SER、WER等指標計算及與預期指標值的比對結果,幫助測試人員從宏觀角度快速掌握本次任務測試資料集的指標結果。
關於評估指標的計算,可以瀏覽下該文章內容:
2 資料標註質量風險評估
通常,人工標註的文字資料與期望資料的相似度越高,那麼說明標註質量越高(可能是誤讀,導致存在一定誤差,但屬於小機率事件),我們透過文字相似度計算(切詞、餘弦相似度)實現標註質量的風險預測。
資料標註質量風險評估包含錄音文字、歸一化文字、標註人員工號、質量風險等級資訊,幫助測試人員快速摸清資料標註質量,以及提高對於高風險標註資料的糾正效率。
3 語音測試樣本的資料統計分析詳情
全量語音識別的統計分析結果中包含每條標註資料的基本資訊,結果比對的統計資訊,以及精確的字、音、調的分析,幫助測試人員快速直觀的瞭解每一條標註資訊標註結果,提高分析效率。
關於這部分實現,可以瀏覽下該文章內容:
4 意圖(場景)統計分析
意圖統計分析結果包含各意圖的字錯率、句錯率,以及與預期指標值的比對結果,幫助測試人員瞭解不同意圖(場景下)的指標表現。
5 其他維度統計分析
其他維度只要包含標註資料時打標的字錯率、句錯率,以及與預期指標值的比對結果各項維度,幫助測試人員瞭解不同資料特徵下的指標表現,同時支援配置即統計(只需要配置到執行配置中,即可實現統計,無需程式碼開發)
6 錯字前提下,音節正確分析詳情
7 錯字且音節正確前提下,音調正確分析詳情
同音字分析,由音節到音調,這是基於錯字且音節正確前提下更深一步的啟發式分析,包含了期望字、期望字音節、多音字讀音、期望音調,對應的錯字數量、錯字音調等資訊,透過資料歸併統計分析,啟發測試人員從中發現更深入的問題。
8 錯字且音節正確前提下,音調錯誤分析詳情
由音節到音調,這是基於錯字且音節正確前提下更深一步的啟發式分析,包含了期望字、期望字音節、多音字讀音、期望音調,對應的錯字數量、錯字音調等資訊,透過資料歸併統計分析,啟發測試人員從中發現更深入的問題。