回覆列表
  • 1 # 北漂老孟

    好我們可以用 Python 完成這項工作。下面就分享一下如何用 Python 解析一個PDF檔案,將其轉為一列關鍵字。

    設定:

    本教程我們使用的是 Python 3.6.3,當然在實際工作中你可以使用任何你喜歡的 Python 版本,只要它支援用到的庫就行。

    需要安裝以下 Python 庫:

    PyPDF2(用於將簡單的基於文字的 PDF 檔案轉為 Python 可讀的文字)

    Textract(用於將 PDF 掃描檔案轉為 Python 可讀的文字)

    Nltk(用於清理短語、將短語轉為關鍵字)

    可以透過以下命令列安裝這些庫:

    pip install PyPDF2

    pip install textract

    pip install nltk

    這樣我們就安裝瞭解析 PDF 檔案所需的庫,一定要確保你的 PDF 檔案放在你編寫指令碼所在的資料夾中。

    啟動編輯器,開始敲程式碼吧!

    第一步:匯入庫

    第2步:讀取 PDF 檔案

    第3步:將文字轉換為關鍵字

    現在我們就將手中的 PDF 檔案儲存為了列表,可以按自己的需要使用了。如果想讓 PDF 可搜尋,或者解析大量檔案進行聚類分析,還可以將得到的列表儲存在電子表格中。

  • 2 # 甫義工作室

    利用Python實現PDF內容提取以及遍歷內容。

    《Python資料採集-多PDF文件進行關鍵字資料檢索》

    https://m.toutiaocdn.com/item/6581260685420790286/?app=news_article&timestamp=1569413004&req_id=2019092520032301002607708102163DEE&group_id=6581260685420790286

  • 中秋節和大豐收的關聯?
  • 30歲了,做機械加工的,如何從技術走向管理層?