首頁>科技>

出處:https://mp.weixin.qq.com/s?__biz=MzUyMzg4ODk2NQ==&mid=2247485373&idx=1&sn=b7fb07b7d1240d49ce27e24f129f1b49

聲紋識別(Voiceprint recognition,VPR)又稱說話人識別(Speakerrecognition, SRE),是一項根據說話人語音訊號中反映說話人生理和行為特徵的語音引數(“聲紋”)自動識別說話人身份的技術。說話人性別識別是聲紋識別的一個重要領域,是一項基於說話人的聲學特徵識別說話人性別的技術。

400電話目前廣泛應用於之家智慧網銷客服諮詢,在服務看車、買車、用車客戶的過程中,之家會積累大量的高價值資料來構建使用者畫像。透過使用者畫像,之家可進行針對性地廣告投放,做到精準營銷,提升線索轉化率。其中,使用者性別資訊對於使用者畫像的構建是至關重要的,對於通話使用者的性別資訊進行標註往往需要投入大量的人工成本,透過聲紋識別技術對使用者通話語音進行自動化性別識別可以幫助企業提升工作效率,節約人工標註成本。

二、原理與實踐

本方法透過實時獲取400電話通話語音流,對語音流進行實時端點檢測,擷取2秒通話語音,對語音進行預處理,提取語音的聲學特徵,將特徵輸入訓練好的模型對通話語音進行實時性別識別。

對語音性別識別模型進行建模的過程為:首先用大量各種通道的語料訓練一個與說話人資訊無關的UBM模型,然後分別將400電話語音資料在UBM上進行MAP自適應得到每條語音的GMM,透過GMM生成均值超向量,接著對均值超向量進行因子分析,從中提取待識別語音的i-vector特徵,最後利用i-vector特徵訓練Logistic Regression模型進行性別識別,整體流程如圖1所示。

圖1 整體流程

2.1 聲學特徵提取

原始音訊訊號可以直接作為模型的輸入,但是在保守情況下,如資料不足、計算力薄弱時,更好的做法是先將其由時域訊號轉換為頻域訊號,模擬人耳的處理機制,最終產生聲學特徵(Acoustic Feature)。聲學特徵提取使得語音資訊更容易暴露,大大降低演算法最佳化的壓力,某種程度上也起到降維的效果,提高計算效率。

聲學特徵選擇MFCC(Mel-FrequencyCepstrum Coefficients,梅爾倒譜系數),MFCC特徵提取的具體步驟為:

a. 預加重 加重高頻語音的能量,使得語音訊號的高頻資訊更加凸顯;

b. 對語音訊號進行分幀加窗幀長25ms,幀移10ms,窗函式優選海明窗;

c. 對加窗後的每一幀語音進行離散傅立葉變換,提取頻域資訊;

d. 提取FBANK特徵 將頻譜透過梅爾濾波器組規劃到梅爾刻度上得到梅爾頻譜,其中梅爾濾波器的個數選擇40,接著將梅爾頻譜的能量數值取對數,得到40維FBANK特徵;

e. 提取MFCC特徵 對FBANK特徵進行離散餘弦變換,得到MFCC,取前20維;

f. 計算每一幀音訊的能量值能量值為該幀下所有音訊取樣點取值的平方和,並用能量值替換MFCC特徵的第一個係數。

每一幀語音特徵的最終形式為20維,其中包括1維能量值和19維MFCC。

2.2 GMM-UBM模型訓練

2.2.1 GMM

GMM(Gaussianmixture model,高斯混合模型)是將多個SGM(SingleGaussian Model,單高斯模型)的PDF函式加權求和來擬合更加複雜空間分佈的PDF函式。假設GMM模型由K個SGM組成,每個SGM稱為一個Component,這些Component的線性加權組成了GMM的機率密度函式。

2.2.2 GMM-UBM

UBM(UniversalBackground Model,通用背景模型)也是一種GMM,該模型將整個聲學空間劃分成若干個聲學子空間,即若干個UBM混合分量。每個聲學子空間是一個與說話人無關的高斯分佈,粗略地代表了一個發音基元類,如圖2所示。

圖2 GMM-UBM建模示意圖

UBM是所有說話人語音特徵的共性反映以及通道資訊的共性反映,固UBM的訓練資料集越多、覆蓋面越廣,訓練得到的GMM就越能接近真實分佈。GMM-UBM建模的步驟為:

a.用大量各種通道的語料訓練一個與說話人資訊無關的UBM(Universal Background Model, 通用背景模型),UBM模型引數的訓練採用EM(Expectation-maximizationalgorithm,期望最大化演算法);

b.將400電話語料資料按一定比例分為訓練集和測試集,將訓練集語料資料在a.得到的UBM模型的每個高斯分量上進行MAP(Maximum A PosterioriEstimation,最大後驗估計)自適應得到每條語音對應的GMM模型,即GMM-UBM模型,自適應過程中只需更新均值向量 u c ;

c.將GMM中所有高斯分量的均值向量 u c 按照固定的順序拼接起來,得到GMM均值超向量M,其中包含了對應通話使用者語音的全部資訊,包括說話人資訊和通道資訊。假設GMM的每個聲學特徵向量為F維,則M為CF×1的Supervector,

聲學特徵向量選擇512維,基於UBM進行MAP自適應的流程如圖3所示。

圖3 基於UBM進行MAP自適應

2.2.3 JFA

Supervector特徵包含大量資訊,包括一些與說話人性別無關的資訊,比如說語言資訊,通道資訊。因此,直接使用這個特徵進行判別是存在資訊冗餘的,需要提取出一些只與說話人相關的特徵。JFA(Joint Factor Analysis, 聯合因子分析)就是一個將特徵分解的常用方法,將語音空間分解成說話人子空間和通道子空間。

其中

• s 是對應說話人的GMM均值超向量,需要分解的物件

• m 是說話人/通道無關的資訊,這裡是UBM的均值超向量

• V 是本徵語音訊號矩陣

• y 是說話人相關的分量,假設其先驗分佈為標準正態分佈

• V 是本徵通道訊號矩陣

• x 是通道相關的分量,假設其先驗分佈為標準正態分佈

• D 是殘差矩陣

• z 是說話人相關的殘差因子,假設其先驗分佈為標準正態分佈

使用JFA方法,訓練 V , U , D 矩陣,然後用這些資訊計算 y , x , z 的數值。其中 y 是主要的說話人特徵,JFA方法需要估計三個矩陣,計算量上是比較大的,而且有說話人資訊和通道資訊混雜的現象。

2.2.4 i-vector

N.Dehak提出了一個更加寬鬆的假設:既然聲紋資訊與通道資訊不能做到完全獨立,那麼用一個超向量子空間對兩種資訊同時建模,用一個子空間同時描述說話人資訊和通道資訊。每段語音在這個空間上的對映座標稱作i-vector(Identity Vector,身份向量),i-vector維度一般在400-600左右。

M=m+Tw

其中

• M 為2.2.2中提到的均值超向量,服從高斯分佈

• m 為UBM均值超向量, T 為總變化空間矩陣,其維度為CF×R

• w 為i-vector特徵

訓練過程中透過EM演算法對總變化空間矩陣 T 進行估計,在總變化空間矩陣 T 估計完畢後,分別對訓練集和測試集透過每條語音的GMM均值超向量提取對應的i-vector特徵, i-vector特徵選擇400維 。得到i-vector特徵後,訓練LR模型對語音性別進行分類。

三、總結

本文主要介紹了聲紋識別技術在語音性別識別中的應用,梳理了經典的以i-vector為基線從建模到應用的整個流程,上述模型在之家400客服電話語音場景中的準確率為97.8%,如有錯誤還望指正。

四、參考文獻

[1] Bahari M H, Dehak N, Van Hamme H.Gaussian Mixture Model Weight Supervector Decomposition and Adaptation[J].2013.

[2] Ranjan S, Liu G, Hansen J H L. Ani-Vector PLDA based gender identification approach for severely distorted andmultilingual DARPA RATS data.[C]// 2016.

[3] Matejka P , Glembek O , Castaldo F , etal. Full-covariance UBM and heavy-tailed PLDA in i-vector speakerverification[C]// Proceedings of the IEEE International Conference onAcoustics, Speech, and Signal Processing, ICASSP 2011, May 22-27, 2011, PragueCongress Center, Prague, Czech Republic. IEEE, 2011.

[4] Joanna Grzybowska , Mariusz Zió ł ko , I-Vectors in gender recognition from telephone

Speech[C]// 13th Annual Conference of theInternational Speech Communication Association 2012, INTERSPEECH 2012, September9-13, Portland, OR, USA.

[5] Ondrej Glembek, Jeff Ma, Pavel Matejka,等. Domain adaptation via within-class covariance correction inI-vector based speaker recognition systems[C]// ICASSP 2014 - 2014 IEEEInternational Conference on Acoustics, Speech and Signal Processing (ICASSP).IEEE, 2014.

出處:https://mp.weixin.qq.com/s?__biz=MzUyMzg4ODk2NQ==&mid=2247485373&idx=1&sn=b7fb07b7d1240d49ce27e24f129f1b49

14
  • 整治雙十一購物亂象,國家再次出手!該跟這些套路說再見了
  • 博輝特科技:攻堅創新賦能低壓電器智慧製造