回覆列表
-
1 # 北漂老孟
-
2 # 甫義工作室
利用Python實現PDF內容提取以及遍歷內容。
《Python資料採集-多PDF文件進行關鍵字資料檢索》
https://m.toutiaocdn.com/item/6581260685420790286/?app=news_article×tamp=1569413004&req_id=2019092520032301002607708102163DEE&group_id=6581260685420790286
好我們可以用 Python 完成這項工作。下面就分享一下如何用 Python 解析一個PDF檔案,將其轉為一列關鍵字。
設定:
本教程我們使用的是 Python 3.6.3,當然在實際工作中你可以使用任何你喜歡的 Python 版本,只要它支援用到的庫就行。
需要安裝以下 Python 庫:
PyPDF2(用於將簡單的基於文字的 PDF 檔案轉為 Python 可讀的文字)
Textract(用於將 PDF 掃描檔案轉為 Python 可讀的文字)
Nltk(用於清理短語、將短語轉為關鍵字)
可以透過以下命令列安裝這些庫:
pip install PyPDF2
pip install textract
pip install nltk
這樣我們就安裝瞭解析 PDF 檔案所需的庫,一定要確保你的 PDF 檔案放在你編寫指令碼所在的資料夾中。
啟動編輯器,開始敲程式碼吧!
第一步:匯入庫
第2步:讀取 PDF 檔案
第3步:將文字轉換為關鍵字
現在我們就將手中的 PDF 檔案儲存為了列表,可以按自己的需要使用了。如果想讓 PDF 可搜尋,或者解析大量檔案進行聚類分析,還可以將得到的列表儲存在電子表格中。