相信大家都有遇到這種情況(無法複製):
或者是這種情況
以上這種情況都是網頁無法複製文本的情況。不過這些對於Python來說都不是問題。用Python去解決。
思路:利用pdfkit庫將html網頁保存為pdf
01
小案例
1、安裝pdfkit庫
pip install pdfkit
通過命令安裝pdfkit,此外還需要安裝exe文件(wkhtmltopdf)。
下載鏈接:https://wkhtmltopdf.org/downloads.html
選擇對於的版本下載並安裝(記住自己的安裝目錄)
2、小案例
先看一下這個網頁(辰哥自己的網頁:www.chenlove.cn)
目標:將這個網頁保存為pdf
效果:
可以看到,我們已經成功將這個網頁保存為pdf
下面我們開始嘗試禁止複製的網頁。
02
實戰
1、目標網站
這裡我們現在簡書平臺的其中一篇文章進行測試(文章設置了禁止複製)
import pdfkitimport timeif __name__ == "__main__":url = "https://www.jianshu.com/p/717dc02a9c21"config = pdfkit.configuration(wkhtmltopdf=r"D:\software\wkhtmltopdf\bin\wkhtmltopdf.exe")pdfkit.from_url(url, r"D:\公眾號\0622\%s.pdf" % time.strftime("%Y-%m-%d-%H-%M-%S", time.localtime(time.time())), configuration=config)
這樣將內容保存為pdf就可以直接進行復制了。
感興趣的小夥伴,可以嘗試其他的網頁(你懂得)
03
小結
本文的講解就到這裡,內容主要是將網頁保存為pdf,對於其他禁止複製的網頁、長網頁等都可以保存為pdf。大家下去可以去自己嘗試。
一定要動手嘗試!一定要動手嘗試!一定要動手嘗試!
#python#
最新評論