不請自來。
文字(符號)是傳遞資訊的載體之一,此外還有影象、聲音等等。如果你願意,所有可探測的物理、化學訊號都可以用於傳遞資訊,只是有保密性強度、效率高低之分。
如果外星人考慮得比較周到,應該會傳來一份特殊的詞典,將影象-文字-聲音都對應起來,這樣理解對方的資訊就很容易了。實際上,歷史上不同語種之間的交流就是建立在這上面的。
如果外星人很不講道理,只傳來了一段奇奇怪怪的編碼/符號,那麼有可能解譯嗎?
在回答這個問題之前,先講幾條現有文字語言系統的特徵:
1、組成這一系統的最基本單元是有限的,如英文中的26個字母,漢語中的上萬個單字。這些最基本單元在大文字中滿足穩定的頻率分佈,如e佔12.7%,t佔9.1%,a佔8.2%。
2、上述的最基本單元可以相互組合構成更高階的單元,表達更豐富的資訊,如字母-單詞-短語-句子,其中單詞是表意的基本單元。
(1和2保證了效率,如果每一件事物都對應一個符號,那麼將極大地增加複雜度)
3、相對來說,越常見常用的單一事物,對應的文字越短越簡單(圖一)。如英文中字母數目很多的單詞,或是漢語中筆劃很多的字,一般都是更為生僻的。
圖一 語料庫中不同詞性的最高頻詞彙(引自wikipedia)
那麼現在可以回答最開始的問題了——能否破譯(沒有其他提示)完全陌生的文字?
答案是可能的,這取決於一些條件是否完備:
1.文字語言系統要與人類一致,前面的三點特徵都要滿足,甲骨文沒問題,但外星人就難說了;
2.兩個世界的差異不能過大,如果外星人不吃飯不睡覺,他們的世界沒有樹也沒有鳥,那基本沒戲了;
3.語料庫足夠大,如果只有50個字元,強如資訊學之父夏農也無計可施,但如果有一本長篇小說(~10萬字),這事有些眉目,如果有10個G的文字,那就好辦得多了。
假設這些條件都有了,我們要做的是:
1.找到表意的基本單元,即詞彙,這很好做,不多講;
2.統計所有詞彙的詞頻,排序;
3.檢索(主要/全部)由詞頻表中前X位詞彙構成的語句(X取決於計算機的計算能力,這裡假設為5000),與現有某文字語言系統如英語進行匹配,解譯出一些基本詞彙;
4.在3的基礎上,反覆迭代,並擴大匹配範圍,解譯出更多的詞彙。
至此就算對這種文字實現破譯了,這是大致思路,還有諸多細節需要考慮,比如語言習慣(如詞性、詞格、語法等)、描述物件差異(如甲骨文中不可能出現computer、data、information這些詞),這些問題都可以在一定程度得到解決。
但需要指出,不可能實現百分百破譯,總有一些資訊是含義不明而多解的,解譯那些詞頻極低的詞彙極其困難。當然要是文字庫裡有常規詞典(用文字解釋文字的含義),情況那就不一樣了。
不請自來。
文字(符號)是傳遞資訊的載體之一,此外還有影象、聲音等等。如果你願意,所有可探測的物理、化學訊號都可以用於傳遞資訊,只是有保密性強度、效率高低之分。
如果外星人考慮得比較周到,應該會傳來一份特殊的詞典,將影象-文字-聲音都對應起來,這樣理解對方的資訊就很容易了。實際上,歷史上不同語種之間的交流就是建立在這上面的。
如果外星人很不講道理,只傳來了一段奇奇怪怪的編碼/符號,那麼有可能解譯嗎?
在回答這個問題之前,先講幾條現有文字語言系統的特徵:
1、組成這一系統的最基本單元是有限的,如英文中的26個字母,漢語中的上萬個單字。這些最基本單元在大文字中滿足穩定的頻率分佈,如e佔12.7%,t佔9.1%,a佔8.2%。
2、上述的最基本單元可以相互組合構成更高階的單元,表達更豐富的資訊,如字母-單詞-短語-句子,其中單詞是表意的基本單元。
(1和2保證了效率,如果每一件事物都對應一個符號,那麼將極大地增加複雜度)
3、相對來說,越常見常用的單一事物,對應的文字越短越簡單(圖一)。如英文中字母數目很多的單詞,或是漢語中筆劃很多的字,一般都是更為生僻的。
圖一 語料庫中不同詞性的最高頻詞彙(引自wikipedia)
那麼現在可以回答最開始的問題了——能否破譯(沒有其他提示)完全陌生的文字?
答案是可能的,這取決於一些條件是否完備:
1.文字語言系統要與人類一致,前面的三點特徵都要滿足,甲骨文沒問題,但外星人就難說了;
2.兩個世界的差異不能過大,如果外星人不吃飯不睡覺,他們的世界沒有樹也沒有鳥,那基本沒戲了;
3.語料庫足夠大,如果只有50個字元,強如資訊學之父夏農也無計可施,但如果有一本長篇小說(~10萬字),這事有些眉目,如果有10個G的文字,那就好辦得多了。
假設這些條件都有了,我們要做的是:
1.找到表意的基本單元,即詞彙,這很好做,不多講;
2.統計所有詞彙的詞頻,排序;
3.檢索(主要/全部)由詞頻表中前X位詞彙構成的語句(X取決於計算機的計算能力,這裡假設為5000),與現有某文字語言系統如英語進行匹配,解譯出一些基本詞彙;
4.在3的基礎上,反覆迭代,並擴大匹配範圍,解譯出更多的詞彙。
至此就算對這種文字實現破譯了,這是大致思路,還有諸多細節需要考慮,比如語言習慣(如詞性、詞格、語法等)、描述物件差異(如甲骨文中不可能出現computer、data、information這些詞),這些問題都可以在一定程度得到解決。
但需要指出,不可能實現百分百破譯,總有一些資訊是含義不明而多解的,解譯那些詞頻極低的詞彙極其困難。當然要是文字庫裡有常規詞典(用文字解釋文字的含義),情況那就不一樣了。