首頁>技術>

作為pyhon小菜鳥的我,為了完成這個內容,前前後後搞了好久。好多資料都是很久之前的,匯入類的位置都發生了變化。直到昨天發現了百度AI識別api介面,才實現了不錯的效果。

1.優點:相比國外的很準確

2.缺點:因呼叫的是百度ap介面,每天有500次次數限制,且需要連線網路。

一、準備工作

1.註冊百度開放平臺賬號,並建立一個應用

百度搜索百度開放平臺,並註冊(使用百度賬號也可)

填寫基本資訊

管理控制檯

同意協議

建立應用

複製appID/APIKEY/SECRET KEY 稍後使用

2.安裝百度API介面庫

小黑窗中輸入pip install baidu-aip,如果不知道怎麼開啟小黑窗,見我之前的文章

二、程式碼部分

其中APP_ID、API_KEY、SECRET_KEY 需要用我們剛剛複製的內容

其中:with open(r"檔案完整路徑","rb")as f:

這段類似的程式碼出現了兩次,分別要換成要識別的照片jpg的檔案完成路徑,和生成的txt檔案完整路徑

from aip import AipOcr # 匯入百度的AIP庫APP_ID = "你的APP_ID"API_KEY = "你的API_KEY"SECRET_KEY = "你的secret_key"client = AipOcr(APP_ID, API_KEY, SECRET_KEY)""" 讀取圖片 """content = "" # 建立一個空的字元,用來儲存內容with open(r"C:\\Users\\lxw01\\Desktop\\python學習經驗\\pdf文字提取\\1.jpg","rb")as f: image = f.read() # 將獲取內容寫入到text資料夾彙總 text = client.basicGeneral(image) # 讀取jpg檔案 # text=client.basicAccurate(image) # 讀取png檔案 for i in text["words_result"]: content = content + "\\n" + i["words"] # 寫入到text資料夾彙總 with open(r"C:\\Users\\lxw01\\Desktop\\python學習經驗\\pdf文字提取\\讀取的檔案\\截圖的內容.txt", "a") as f: # 清空檔案內容,不需要時可註釋掉 f.seek(0, 0) f.truncate() # 寫入檔案內容 f.write(content) f.close() # print(content)

三、測試

將這個照片識別出文字

執行結果:

效果相當棒

下一遍將介紹pdf檔案中提取文字,已經工作的小夥伴肯定有這樣的經歷。。。

  • BSA-TRITC(10mg/ml) TRITC-BSA 牛血清白蛋白改性標記羅丹明
  • 基於grafana反向代理配置