首頁>Club>
1
回覆列表
  • 1 # Bean蠶豆

    問到這個問題,應該有一定的基礎。對python在資料分析上的應用有一定的瞭解。資料分析其實更的時候是資料處理部分,然後是模型的應用,最後是資料視覺化。我們就從資料分析使用到python的幾個過程來著手提高相關的能力。

    資料處理部分,涉及到檔案、資料庫,函式/類的程式設計

    資料分析,需要有資料先,資料可以是多種來源-資料庫、檔案、網路等。首先,我們來看資料庫,資料庫方面目前常用的有mysql,db2主流的關係型資料庫,非關係型資料庫有mongodb,hadoop等,這樣的話我們要掌握python如何連線對應的資料庫,比如Mysql,我們就可以使用mysqldb庫,對mysql資料庫進行操作。

    再比如對檔案的操作,比如xlsx,我們可以使用xlrd庫。

    得到源資料後,我們需要處理一下資料,比如,我們從網路上爬取下來的資料,我們就需要寫相應的函式或者類來負責資料的邏輯處理部分。

    資料模型部分,也是在處理完、清洗完資料後需要透過一定的模型發現數據規律的部分

    這裡可以學習一些機器學習的模型,常用的一些演算法是我們需要知道的,比如二分查詢法、鄰近演算法、決策樹等一些演算法。這裡我推薦兩本書,一本書是《演算法圖解》,另一本書是《機器學習實戰》。這部分其實是比較花時間的,需要多花時間研究。當然並不是所有的資料分析都需要,基本的統計分析,關聯關係滿足我們的日常工作需求。但是出於提高能力的出發點,這些學習是有必要的。

    資料分析的資料視覺化部分,資料視覺化我們可以更高效地發現數據背後的規律

    python的視覺化有很多庫可以支援,seaborn、ggplot、matplotlib等都可以得到優美的圖形,像下面使用seaborn得到的圖形。

    總的來說,資料分析的提高涉及到資料分析的三個步驟,重點是在第二步,第一步是基礎,最三步是錦上添花。

  • 2 # 碼上程功

    從以下幾個方面給出一些建議:

    1, 確定分析的目標。 這個確實是非常重要的。許多人不想目標,一上來就開始收集資料,最後自己都不知道要分析什麼東西。 即使不能完全清楚目標,也要思考之後帶著問題去進行下面的步驟。

    2, 準備相關的資料集合。

    首先知道自己想提高哪方面的資料分析,比如是金融領域、網際網路領域、影象領域或者僅僅是為了學習。 資料集的收集可以自己寫爬蟲程式爬取、或者從網上下載一些相關領域的資料集。 比如, MovieLens 1M Data Set ( (http://www.grouplens.org/node/73))

    3,準備好資料分析類的工具,選擇好所用python的版本,是選用python2或者python3.是選用單獨的python或者是類似於anocanda的python的整合包。(推薦新手直接用後者,省去了自己安裝用於資料分析包的時間)

    4, 熟練使用python的幾個用於科學計算、資料分析的庫,如numpy, scipy, pandas等。這點會加快分析提升的能力以及減少分析的時間。

    5, 資料分析的幾個重要步驟要記住:

    - 資料準備和收集

    - 資料清洗 : 將不需要分析以及dirty data清理掉

    - 資料探查 : 初步觀察資料、也可以藉助一些視覺化的工具,如matlabplot等對原始資料視覺化,大致掌握資料分析、資料規律。為詳細資料分析做準備。

    - 資料建模 : 這一步用於分析比較複雜或大型的分析人物

    - 資料分析 : 根據分析目標應用一些聚合、機器學習的演算法進行資料分析得出結論。

    - 資料視覺化: 將分析結果視覺化為圖示。方便給使用者清晰解釋分析得到的規律以及原因。

    6. 多練習!!

  • 中秋節和大豐收的關聯?
  • “三鹿”事件過去十年,國產乳業如今境遇如何?