這裡以Python為例,簡單介紹一下,如何從圖片中識別文字,主要用到Tesseract這個開源軟體,感興趣的朋友可以嘗試一下:
這個直接到官網下載即可,Tesseract是谷歌一個非常著名、開源的OCR識別引擎,可以輕鬆識別圖片中的任何文字,包括中文、英文等,Windows是一個exe檔案,直接雙擊安裝即可,如下,32位、64位都有,選擇適合自己平臺的版本就行:
安裝時候,建議勾選“中文簡體”和“中文繁體”這2項,這樣在識別中文的時候,才能更好的支援,準確率也會有所提升:
Tesseract安裝完成後,這裡還需要先安裝pytesseract模組,直接在cmd視窗執行命令“pip install pytesseract”即可,程式會自動檢測相關依賴並安裝,接著我們就可以直接程式設計呼叫Tesseract識別圖片文字了,測試程式碼如下,這裡包括英文和中文圖片識別,基本思路先讀取圖片,然後載入tesseract,最後再直接呼叫image_to_string函式識別即可:
程式執行截圖如下,第一幅圖為英文識別效果,準確率還是非常高的,第二幅圖是中文識別效果,效果有些不理想,個別文字存在較大誤差,需要改進和最佳化:
至此,我們就完成了利用Python從圖片中識別文字。總的來說,整個過程非常簡單,藉助於Tesseract,我們可以快速從圖片中提取文字,只要你熟悉一下上面的操作過程,很快就能掌握的,網上也有相關教程和資料,介紹的非常詳細,感興趣的話,可以搜一下,希望以上分享的內容能對你有所幫助吧,也歡迎大家評論、留言進行補充。
這裡以Python為例,簡單介紹一下,如何從圖片中識別文字,主要用到Tesseract這個開源軟體,感興趣的朋友可以嘗試一下:
01安裝Tesseract這個直接到官網下載即可,Tesseract是谷歌一個非常著名、開源的OCR識別引擎,可以輕鬆識別圖片中的任何文字,包括中文、英文等,Windows是一個exe檔案,直接雙擊安裝即可,如下,32位、64位都有,選擇適合自己平臺的版本就行:
安裝時候,建議勾選“中文簡體”和“中文繁體”這2項,這樣在識別中文的時候,才能更好的支援,準確率也會有所提升:
02識別圖片文字Tesseract安裝完成後,這裡還需要先安裝pytesseract模組,直接在cmd視窗執行命令“pip install pytesseract”即可,程式會自動檢測相關依賴並安裝,接著我們就可以直接程式設計呼叫Tesseract識別圖片文字了,測試程式碼如下,這裡包括英文和中文圖片識別,基本思路先讀取圖片,然後載入tesseract,最後再直接呼叫image_to_string函式識別即可:
程式執行截圖如下,第一幅圖為英文識別效果,準確率還是非常高的,第二幅圖是中文識別效果,效果有些不理想,個別文字存在較大誤差,需要改進和最佳化:
至此,我們就完成了利用Python從圖片中識別文字。總的來說,整個過程非常簡單,藉助於Tesseract,我們可以快速從圖片中提取文字,只要你熟悉一下上面的操作過程,很快就能掌握的,網上也有相關教程和資料,介紹的非常詳細,感興趣的話,可以搜一下,希望以上分享的內容能對你有所幫助吧,也歡迎大家評論、留言進行補充。