TN全稱Text Normalization,意思是文字規整、文字正則化 。TN是 TTS (Text-to-speech,文字轉語音) 系統中的重要組成部分,主要功能是將文字中的數字、符號、縮寫等轉換成語言文字。如:20% >> 在中文TTS系統裡會被轉換成“百分之二十”,在英文TTS系統裡則會被轉換成“twenty percent”。 15:02 >> 可能被轉換成“十五點零二分”(現在是15:02),也可能被轉換成“十五比二”(AC米蘭以15:02暫時領先)。由此可以看出TN會根據語境對同一文字進行不同的轉換。擴充套件資料中文文字正則化(Text Normalization)是把非漢字字串轉換為漢字字串以確定其讀音的過程。文字正則化在語音合成、語音識別、機器翻譯、主題檢測、文字挖掘等領域有著重要應用。加權有限狀態轉換器(Weighted Finite StateTransducer,WFST)是一種很好的規則與統計相結合的技術,本文以WFST為框架,設計並實現了一箇中文文字正則化系統。中文文字正則化所設計的文字正則化系統主要由三個模組構成:規則集合,詞典和語言模型。本文利用合成(Composition)演算法對各層模型進行合併,並使用WFST的確定化(Determination)、最小化(Minimization)演算法對搜尋網路進行最佳化。
TN全稱Text Normalization,意思是文字規整、文字正則化 。TN是 TTS (Text-to-speech,文字轉語音) 系統中的重要組成部分,主要功能是將文字中的數字、符號、縮寫等轉換成語言文字。如:20% >> 在中文TTS系統裡會被轉換成“百分之二十”,在英文TTS系統裡則會被轉換成“twenty percent”。 15:02 >> 可能被轉換成“十五點零二分”(現在是15:02),也可能被轉換成“十五比二”(AC米蘭以15:02暫時領先)。由此可以看出TN會根據語境對同一文字進行不同的轉換。擴充套件資料中文文字正則化(Text Normalization)是把非漢字字串轉換為漢字字串以確定其讀音的過程。文字正則化在語音合成、語音識別、機器翻譯、主題檢測、文字挖掘等領域有著重要應用。加權有限狀態轉換器(Weighted Finite StateTransducer,WFST)是一種很好的規則與統計相結合的技術,本文以WFST為框架,設計並實現了一箇中文文字正則化系統。中文文字正則化所設計的文字正則化系統主要由三個模組構成:規則集合,詞典和語言模型。本文利用合成(Composition)演算法對各層模型進行合併,並使用WFST的確定化(Determination)、最小化(Minimization)演算法對搜尋網路進行最佳化。