火星文是怎麼回事？

首頁>Club>xm80232021-04-03 17:04

火星文是怎麼回事？

回覆列表

1 # 唐老鴨記錄

能。

只要能把火星文復原成正常的文字，後續的理解、翻譯等等都可以用現有的技術來做。而把火星文復原成正常的文字，可以用與語音識別相同的方法。

語音識別中最核心的方程是：其中，W代表單詞或字元序列，X代表波形，P(W)是字元序列W本身的機率，P(X|W)是字元序列產生波形X的機率。通俗地講，這個方程說的是，給定波形後，我們要找的字元序列既要本身像話，又要跟觀察到的波形相匹配。
把這個方程中的X換成火星文的字元序列，就可以解決復原火星文的問題了。也就是說，給定一個火星文序列，我們要找一個正常的文字序列，它既要本身像話，又要跟火星文相匹配。

方程中的P(W)和P(X|W)兩項是需要訓練的。在語音識別中，前者稱為語言模型，可以用大量的文字來訓練；後者稱為聲學模型，可以用大量的文字與相應的波形來訓練。在火星文識別中，語言模型不變，我們只需要重新訓練與“聲學模型”對應的部分。我們當然可以收集大量的正常文字與火星文字對照的資料，用純統計的方法來訓練。但我們也可以往裡加一些“智慧”——比如我們知道“吥”“懷”“杯”“壞”的右邊都是“不”，“卜”“卟”“布”等字都念bu，所以這些字在火星文中都可以代表“不”字。為此，我們需要有關漢字讀音和字形的資料庫。Unihan資料庫中有關於字音的資訊，但我還不知道有什麼包含字形資訊的資料庫。
谷歌翻譯之類的工具翻譯不了火星文，非不能也，實不為也。

∧ 中秋節和大豐收的關聯？

∨ 牛可以餵雞飼料嗎？

熱門排行

劇多

火星文是怎麼回事？