無論是做資料分析,資料探勘還是機器學習,對於學習者來說,瞭解再多的模型、算法理論,都不如一次實踐學到的多。
我建議大家在學習過程中多透過實戰專案練練手,加強對演算法、模型的理解,卻天天被問上哪裡找資料……
今天我乾脆為大家整理了我平常做資料分析、資料探勘練習時候經常用到的資料集網站,對做機器學習的朋友也很有用,快點收藏!
一、常用資料公開網站01. UCI
https://archive.ics.uci.edu/
02. 搜數網
http://www.soshoo.com/index.do
彙集了中國資訊行自92年以來收集的44個行業所有統計和調查資料。
03. Figshare
https://figshare.com/
研究成果共享平臺,這裡向全世界開放免費的研究成果及科學資料。
04. 亞馬遜 aws
https://aws.amazon.com/cn/
來自亞馬遜的跨科學雲資料平臺,擁有免費且開源的資料庫,包含化學、生物、經濟等多個領域的資料集。
05. Github
https://github.com/
一個非常全面的資料獲取渠道,包含各個細分領域的資料庫資源,自然科學和社會科學的覆蓋都很全面,適合做研究和資料分析的人員。
06. Kaggle
https://www.kaggle.com/
全球最大的資料競賽平臺,競賽的資料集通常乾淨且科研性非常高。使用者可以自己上傳資料集,也可以透過某項競賽下載資料集,裡面有不少別的平臺找不到的有趣資料集。
二、政府開放資料
01. 新加坡政府公開資料
https://data.gov.sg/
02. 美國政府公開資料
https://www.data.gov/
03. 法國政府公開資料
https://www.data.gouv.fr/en/
04. 英國政府公開資料
https://data.gov.uk/
05. 國家統計局
http://www.stats.gov.cn/
1999年至今中國統計年鑑,國家統計局官網,提供單頁Excel檔案下載。
06. 中國統計資訊網
http://www.tjcn.org/
全國及各級政府各年度統計公報、年鑑等,為收費資料。
07. 年鑑汪
https://www.nianjianwang.com/
全國城市統計資料搜尋引擎,瀏覽免費,下載收費。
08. 北京市政務資料資源網
https://data.beijing.gov.cn/index.htm
深圳市政府資料開放平臺:交通、文娛、就業、基礎設施等資料。
09. 深圳市政府資料開放平臺
https://opendata.sz.gov.cn/
交通、文娛、就業、基礎設施等資料。
10. 上海市政務資料服務網
https://data.sh.gov.cn/
覆蓋經濟建設、文化科技、信用服務、交通出行等12個重點領域資料。
旗下的統通通平臺專注於臨床資料統計分析服務,提供一對一諮詢與指導。