文字識別是計算機技術發展的結果,將人類工作、生活中要處理的大量文字,交給機器來自動識別,大大減輕了人們的工作量和工作強度,提高了工作效率,是科技進步對人類的重大貢獻之一。
文字識別的邏輯順序是採集,分析和判別。利用光電掃描或者影象掃描,捕捉文字的灰度資訊,將之變成電訊號,輸入到計算機中。對電訊號進行“過濾”,刪除掉干擾隱私,然後對“乾淨"的文字資訊進行判別,輸出結果。象形文字是最古老的文字,也是現代文字的鼻祖,它的特徵是表形,具有形象性。物件形文字的識別也是要遵從文字識別技術的原理,將文字轉變為電訊號,經過處理後分類和識別出來。至於象形文字是透過怎樣的方式來識別,這就和文字識別技術的方法有關。
文字識別的方法有兩種,一種是模板匹配,形象理解起來就像是把要識別的文字和規範的文字模板進行疊加,看看他倆的相符程度。相符的,就認為是符合模板所設定的這個字,從而識別出這個字。在計算機上,將輸入的文字與給定的各類別標準文字進行匹配,計算輸入文字與各模板之間的相似性程度,取相似度最大的類別作為識別結果。另一種是幾何特徵抽取,它是指抽取被識別文字的一些幾何特徵,如文字的端點、分叉點、凹凸部分以及水平、垂直、傾斜等各方向的線段、閉合環路等,根據這些特徵的位置和相互關係進行邏輯組合判斷,獲得識別結果。
無論是採用哪一種方法來識別文字,前提就是必須要有給定的資料庫,也就是文字型檔,只有輸入的文字和資料庫裡的文字進行匹配或者經過邏輯運算得到的結構特徵和現有資料庫裡的文字機構特徵進行比對,才能準備識別出這個文字具體是哪一個字。那麼,對於象形文字得 識別,技術不是問題,問題是象形文字的資料庫,也就是現有被識別出來的象形文字轉換為現代文字的集合。這個就不是技術問題而是語言學,歷史學的問題了,如果某個象形文字還沒有被人類識別出來,不知道它的意思,那麼即使機器透過掃描找到了它,那還是隻能輸出象形文字,因為它的意思人類還不知道。
識別象形文字的技術手段是成熟的,但是物件形文字的破解才是最根本的。
文字識別是計算機技術發展的結果,將人類工作、生活中要處理的大量文字,交給機器來自動識別,大大減輕了人們的工作量和工作強度,提高了工作效率,是科技進步對人類的重大貢獻之一。
文字識別的邏輯順序是採集,分析和判別。利用光電掃描或者影象掃描,捕捉文字的灰度資訊,將之變成電訊號,輸入到計算機中。對電訊號進行“過濾”,刪除掉干擾隱私,然後對“乾淨"的文字資訊進行判別,輸出結果。象形文字是最古老的文字,也是現代文字的鼻祖,它的特徵是表形,具有形象性。物件形文字的識別也是要遵從文字識別技術的原理,將文字轉變為電訊號,經過處理後分類和識別出來。至於象形文字是透過怎樣的方式來識別,這就和文字識別技術的方法有關。
文字識別的方法有兩種,一種是模板匹配,形象理解起來就像是把要識別的文字和規範的文字模板進行疊加,看看他倆的相符程度。相符的,就認為是符合模板所設定的這個字,從而識別出這個字。在計算機上,將輸入的文字與給定的各類別標準文字進行匹配,計算輸入文字與各模板之間的相似性程度,取相似度最大的類別作為識別結果。另一種是幾何特徵抽取,它是指抽取被識別文字的一些幾何特徵,如文字的端點、分叉點、凹凸部分以及水平、垂直、傾斜等各方向的線段、閉合環路等,根據這些特徵的位置和相互關係進行邏輯組合判斷,獲得識別結果。
無論是採用哪一種方法來識別文字,前提就是必須要有給定的資料庫,也就是文字型檔,只有輸入的文字和資料庫裡的文字進行匹配或者經過邏輯運算得到的結構特徵和現有資料庫裡的文字機構特徵進行比對,才能準備識別出這個文字具體是哪一個字。那麼,對於象形文字得 識別,技術不是問題,問題是象形文字的資料庫,也就是現有被識別出來的象形文字轉換為現代文字的集合。這個就不是技術問題而是語言學,歷史學的問題了,如果某個象形文字還沒有被人類識別出來,不知道它的意思,那麼即使機器透過掃描找到了它,那還是隻能輸出象形文字,因為它的意思人類還不知道。
識別象形文字的技術手段是成熟的,但是物件形文字的破解才是最根本的。