作為pyhon小菜鳥的我,為了完成這個內容,前前後後搞了好久。好多資料都是很久之前的,匯入類的位置都發生了變化。直到昨天發現了百度AI識別api介面,才實現了不錯的效果。
1.優點:相比國外的很準確
2.缺點:因呼叫的是百度ap介面,每天有500次次數限制,且需要連線網路。
一、準備工作
1.註冊百度開放平臺賬號,並建立一個應用
百度搜索百度開放平臺,並註冊(使用百度賬號也可)
填寫基本資訊
管理控制檯
同意協議
建立應用
複製appID/APIKEY/SECRET KEY 稍後使用
2.安裝百度API介面庫
小黑窗中輸入pip install baidu-aip,如果不知道怎麼開啟小黑窗,見我之前的文章
二、程式碼部分
其中APP_ID、API_KEY、SECRET_KEY 需要用我們剛剛複製的內容
其中:with open(r"檔案完整路徑","rb")as f:
這段類似的程式碼出現了兩次,分別要換成要識別的照片jpg的檔案完成路徑,和生成的txt檔案完整路徑
from aip import AipOcr # 匯入百度的AIP庫APP_ID = "你的APP_ID"API_KEY = "你的API_KEY"SECRET_KEY = "你的secret_key"client = AipOcr(APP_ID, API_KEY, SECRET_KEY)""" 讀取圖片 """content = "" # 建立一個空的字元,用來儲存內容with open(r"C:\\Users\\lxw01\\Desktop\\python學習經驗\\pdf文字提取\\1.jpg","rb")as f: image = f.read() # 將獲取內容寫入到text資料夾彙總 text = client.basicGeneral(image) # 讀取jpg檔案 # text=client.basicAccurate(image) # 讀取png檔案 for i in text["words_result"]: content = content + "\\n" + i["words"] # 寫入到text資料夾彙總 with open(r"C:\\Users\\lxw01\\Desktop\\python學習經驗\\pdf文字提取\\讀取的檔案\\截圖的內容.txt", "a") as f: # 清空檔案內容,不需要時可註釋掉 f.seek(0, 0) f.truncate() # 寫入檔案內容 f.write(content) f.close() # print(content)三、測試
將這個照片識別出文字
執行結果:
效果相當棒
下一遍將介紹pdf檔案中提取文字,已經工作的小夥伴肯定有這樣的經歷。。。
最新評論