做資料分析想要搞到原始資料集的話,主要有幾個方面。
kaggle比賽資料來源、天池、爬蟲採集等。
作為一個數據挖掘領域的比賽平臺,kaggle的標語是“your home for data science”,透過他的標語也可以看出kaggle在資料科學領域的專業性。當然kaggle上面的用於資料分析的資料集也是很豐富的。因為許多公司會同kaggle合作,設立資料探勘類的比賽同時設定獎金、公開資料來源,讓所有對資料探勘感興趣的小夥伴們加入進來,參加比賽贏得獎金。不論是初學者還是想在資料科學領域有深入發展,都可以藉助kaggle來提高自己的資料分析能力。
這是國內的一個相對比較出名的資料分析類比賽平臺。由阿里巴巴等公司組織安排,同樣的也會設定獎金,也會向眾多資料分析愛好者提供公開資料集。平臺比較公平,獎項含金量也高,感興趣的小夥伴可以關注一波。
如果有小夥伴做的資料分析領域不容易找到公開的資料集,就不得不考慮裡用爬蟲來人工採集資料集了,當然這個過程相對來說複雜一點。因為用於資料分析的資料集必須是大量的,這就要求要採集足夠多的資料,必要的時候可能還要用分散式爬蟲。當然,這只是作為一個備選項,有需求還是儘量找公開的權威資料集。
做資料分析想要搞到原始資料集的話,主要有幾個方面。
kaggle比賽資料來源、天池、爬蟲採集等。
Kaggle資料來源作為一個數據挖掘領域的比賽平臺,kaggle的標語是“your home for data science”,透過他的標語也可以看出kaggle在資料科學領域的專業性。當然kaggle上面的用於資料分析的資料集也是很豐富的。因為許多公司會同kaggle合作,設立資料探勘類的比賽同時設定獎金、公開資料來源,讓所有對資料探勘感興趣的小夥伴們加入進來,參加比賽贏得獎金。不論是初學者還是想在資料科學領域有深入發展,都可以藉助kaggle來提高自己的資料分析能力。
天池資料來源這是國內的一個相對比較出名的資料分析類比賽平臺。由阿里巴巴等公司組織安排,同樣的也會設定獎金,也會向眾多資料分析愛好者提供公開資料集。平臺比較公平,獎項含金量也高,感興趣的小夥伴可以關注一波。
人工爬蟲如果有小夥伴做的資料分析領域不容易找到公開的資料集,就不得不考慮裡用爬蟲來人工採集資料集了,當然這個過程相對來說複雜一點。因為用於資料分析的資料集必須是大量的,這就要求要採集足夠多的資料,必要的時候可能還要用分散式爬蟲。當然,這只是作為一個備選項,有需求還是儘量找公開的權威資料集。