回覆列表
  • 1 # 論智

    西夏文是仿照漢字創立的記錄党項族語言的文字,又稱蕃書或蕃文,至元代又稱河西字。

    基於計算機技術識別西夏文,實際上就是OCR。OCR在漢字領域已經有很多研究和產品,而西夏文因為是仿製漢字而成的,所以可以借鑑漢字OCR的經驗。當然,相比漢字,西夏文的筆畫比較多,但是其實有不少繁體字的筆畫也很多。所以其實西夏文OCR的主要困難是西夏文這種死文字關注度比較少,不像漢字OCR一樣有廣泛的應用(或者說說,這方面的投入能帶來巨大的商業回報)。

    另外,西夏文雖然是仿製漢字,但仍具有一些不同的特性,利用這些特性,可以基於人工智慧技術進行西夏文OCR。

    比如,和漢字相比,西夏文獨體字很少,大部分都是由2-3個甚至更多構件組成的合體字。既然如此,那麼從直覺上,使用網格方法進行OCR,效果應該不錯。門光福等的《基於彈性網路的西夏文識別》就採用了這一思路。預處理西夏文之後,根據西夏文的結構構造非均勻的彈性網格,提取畫素點在網格的機率分佈作為特徵,最後基於線性判別分析方法降維提取的特徵。在240類9600個西夏文上試驗的結果,識別率可以達到87.99%。

    再比如,人們常說漢字是方塊字,實際上西夏文比漢字要更方塊。檢索漢字的四角號碼編碼就是利用了漢字的方塊字特性。那更方塊的西夏文,當然也可以透過四角“檢索”(OCR可以看成一種透過圖片檢索漢字的方法)。孟一飛等的《基於MeanShift演算法的西夏文字筆形識別》就採用了這一思路。首先把四角編碼規則“遷移”到西夏文,然後透過識別西夏文的四角構件確定文字的編碼,實現對字元的識別。MeanShift是識別單個構件的方法。

  • 中秋節和大豐收的關聯?
  • 打人就要先打臉?塔利班組織為何敢於高調襲擊美軍駐阿司令部?