如何從Python中提取PDF文件資訊？

首頁>Club>唐那人2021-03-13 09:14

如何從Python中提取PDF文件資訊？

25

回覆列表

1 # 北漂老孟

好我們可以用 Python 完成這項工作。下面就分享一下如何用 Python 解析一個PDF檔案，將其轉為一列關鍵字。

設定：

本教程我們使用的是 Python 3.6.3，當然在實際工作中你可以使用任何你喜歡的 Python 版本，只要它支援用到的庫就行。

需要安裝以下 Python 庫：
PyPDF2（用於將簡單的基於文字的 PDF 檔案轉為 Python 可讀的文字）

Textract（用於將 PDF 掃描檔案轉為 Python 可讀的文字）

Nltk（用於清理短語、將短語轉為關鍵字）

可以透過以下命令列安裝這些庫：

pip install PyPDF2

pip install textract

pip install nltk

這樣我們就安裝瞭解析 PDF 檔案所需的庫，一定要確保你的 PDF 檔案放在你編寫指令碼所在的資料夾中。

啟動編輯器，開始敲程式碼吧！

第一步：匯入庫

第2步：讀取 PDF 檔案
第3步：將文字轉換為關鍵字

現在我們就將手中的 PDF 檔案儲存為了列表，可以按自己的需要使用了。如果想讓 PDF 可搜尋，或者解析大量檔案進行聚類分析，還可以將得到的列表儲存在電子表格中。

2 # 甫義工作室

利用Python實現PDF內容提取以及遍歷內容。
《Python資料採集-多PDF文件進行關鍵字資料檢索》
https://m.toutiaocdn.com/item/6581260685420790286/?app=news_article&timestamp=1569413004&req_id=2019092520032301002607708102163DEE&group_id=6581260685420790286

相關內容

∧ 中秋節和大豐收的關聯？

∨ 30歲了，做機械加工的，如何從技術走向管理層？

熱門排行