如何用python爬取知網論文資料？

首頁>Club>動感超人2020-12-24 13:18

如何用python爬取知網論文資料？

12

回覆列表

1 # 鯨落寂

用Python爬取指望關於某個主題的所有論文摘要等資訊。

有個類似的程式碼

先放程式碼連線

Git

然後改了哈

應該是很詳細得了

為了看懂這個程式碼，

我先看了另外一個比較一點簡單程式碼，

爬取知網統計資料，並下載文獻
然後學了一些關於正則匹配的（入門篇和中級篇）

正則匹配入門篇

我感覺把正則匹配學一些，然後稍微能看得懂一點的網頁原始碼，就可以了。

開啟網頁——分析其原始碼————URL（找到每頁不同的部分）——找到你需要爬去的地方——合適的正則匹配

更新：為了寫論文的參考文獻，做了個適合收集參考文獻的版本詳見GitHub：GitHub地址

更新cookie ：

建議你去報個教學班，或者在網上找一下教程影片有教！

2 # 科技要述

授人以魚不如授人以漁，我介紹一下用Python自動化下載我想要的論文參考文獻格式的方法。其用到的方法和工具同從知網爬取論文資料類似，你可以做個參考。
工具：selenium瀏覽器： Chrome引用的庫：
為了將每個下載到的檔案都能對應正確的檔名，用了多執行緒來監聽下載目錄資料夾，用watchdog一個開源庫來監聽下載目錄資料夾，當該資料夾中出現新的檔案時，程式自動將該檔案進行重新命名。
軟體從一個txt檔案中讀取出需要下載的檔名稱，然後進行自動化下載。從txt中讀取檔名稱時，用到了正則表示式。

需要下載的文獻在txt中

開啟瀏覽器

現在需要獲取到該連結，即圖中的href連結既是需要下載的內容連結

以上既是自動化下載文獻引用格式的一個過程。爬取知網論文思路類似，完全可以透過Selenium來實現。
3 # CPC嘚啵嘚

爬取不了，爬取本質就是用指令碼批次訪問。跟你訪問無數次是一樣的。
爬取知網首先需要知網的訪問許可權。
沒有許可權無論如何是爬取不了的。
第二即使你有訪問許可權，也無法批次下載，知網對訪問量有限制。你爬取20篇以上論文就會被鎖定賬號無法繼續下載。

相關內容

∧ 中秋節和大豐收的關聯？

∨ 怎麼培養寵物鴨？

熱門排行