首頁>Club>
12
回覆列表
  • 1 # 鯨落寂

    用Python爬取指望關於某個主題的所有論文摘要等資訊。

    有個類似的程式碼

    先放程式碼連線

    Git

    然後改了哈

    應該是很詳細得了

    為了看懂這個程式碼,

    我先看了另外一個比較一點簡單程式碼,

    爬取知網統計資料,並下載文獻

    然後學了一些關於正則匹配的(入門篇和中級篇)

    正則匹配入門篇

    我感覺把正則匹配學一些,然後稍微能看得懂一點的網頁原始碼,就可以了。

    開啟網頁——分析其原始碼————URL(找到每頁不同的部分)——找到你需要爬去的地方——合適的正則匹配

    更新 :為了寫論文的參考文獻,做了個適合收集參考文獻的版本 詳見GitHub:GitHub地址

    更新cookie :

    建議你去報個教學班,或者在網上找一下教程影片有教!

  • 2 # 科技要述

    授人以魚不如授人以漁,我介紹一下用Python自動化下載我想要的論文參考文獻格式的方法。其用到的方法和工具同從知網爬取論文資料類似,你可以做個參考。

    工具:selenium瀏覽器: Chrome引用的庫:

    為了將每個下載到的檔案都能對應正確的檔名,用了多執行緒來監聽下載目錄資料夾,用watchdog一個開源庫來監聽下載目錄資料夾,當該資料夾中出現新的檔案時,程式自動將該檔案進行重新命名。

    軟體從一個txt檔案中讀取出需要下載的檔名稱,然後進行自動化下載。從txt中讀取檔名稱時,用到了正則表示式。

    需要下載的文獻在txt中

    開啟瀏覽器

    現在需要獲取到該連結,即圖中的href連結既是需要下載的內容連結

    以上既是自動化下載文獻引用格式的一個過程。爬取知網論文思路類似,完全可以透過Selenium來實現。

  • 3 # CPC嘚啵嘚

    爬取不了,爬取本質就是用指令碼批次訪問。跟你訪問無數次是一樣的。

    爬取知網首先需要知網的訪問許可權。

    沒有許可權無論如何是爬取不了的。

    第二即使你有訪問許可權,也無法批次下載,知網對訪問量有限制。你爬取20篇以上論文就會被鎖定賬號無法繼續下載。

  • 中秋節和大豐收的關聯?
  • 怎麼培養寵物鴨?