首頁>Club>
5
回覆列表
  • 1 # 唐老鴨記錄

    能。

    只要能把火星文復原成正常的文字,後續的理解、翻譯等等都可以用現有的技術來做。而把火星文復原成正常的文字,可以用與語音識別相同的方法。

    語音識別中最核心的方程是:其中,W代表單詞或字元序列,X代表波形,P(W)是字元序列W本身的機率,P(X|W)是字元序列產生波形X的機率。通俗地講,這個方程說的是,給定波形後,我們要找的字元序列既要本身像話,又要跟觀察到的波形相匹配。

    把這個方程中的X換成火星文的字元序列,就可以解決復原火星文的問題了。也就是說,給定一個火星文序列,我們要找一個正常的文字序列,它既要本身像話,又要跟火星文相匹配。

    方程中的P(W)和P(X|W)兩項是需要訓練的。在語音識別中,前者稱為語言模型,可以用大量的文字來訓練;後者稱為聲學模型,可以用大量的文字與相應的波形來訓練。在火星文識別中,語言模型不變,我們只需要重新訓練與“聲學模型”對應的部分。我們當然可以收集大量的正常文字與火星文字對照的資料,用純統計的方法來訓練。但我們也可以往裡加一些“智慧”——比如我們知道“吥”“懷”“杯”“壞”的右邊都是“不”,“卜”“卟”“布”等字都念bu,所以這些字在火星文中都可以代表“不”字。為此,我們需要有關漢字讀音和字形的資料庫。Unihan資料庫中有關於字音的資訊,但我還不知道有什麼包含字形資訊的資料庫。

    谷歌翻譯之類的工具翻譯不了火星文,非不能也,實不為也。

  • 中秋節和大豐收的關聯?
  • 牛可以餵雞飼料嗎?