-
1 # 趣喜歡程式設計
-
2 # 大資料研習社
Python資料分析,主要需要學習以下內容:
1、Python語法基礎
2、Python資料分析擴充套件包:Numpy、Pandas、Matplotlib等
3、Python爬蟲基礎(非必須,但可以提升興趣)
4、Python資料探索及預處理
5、Python機器學習
Python語法基礎Python作為一門程式語言,當然需要先學習其語法基礎,如果學習過其他程式語言,上手Python會比較快。Python語法基礎需要掌握以下內容:
網上有很多學習資料,隨便買本書就可以,或者學習本號錄製的Python資料分析影片。
Python資料分析擴充套件包有了Python基礎後,接下來就需要學習Python資料分析擴充套件包了,常用的有3個:Numpy、Pandas和Matplotlib。
1、Numpy
NumPy系統是Python的一種開源的數值計算框架。這種工具可用來儲存和處理大型矩陣,相當於將Python相當於變成一種免費的更強大的MatLab系統。
2、Pandas
Pandas,最初被作為金融資料分析工具而開發出來,因而Pandas為時間序列分析提供了很好的支援。另外Python中常用的DataFrame,及用讀取外部資料檔案的方法都屬於Pandas。
3、Matplotlib
Matplotlib是一個很強大的Python視覺化庫,可以很輕鬆地繪製各種資料圖表,包括三維圖表。
Python爬蟲基礎(非必須)嚴格來說,Python爬蟲不屬於Python資料分析的範疇,但是可以作為一個可以提升自己興趣,以及提升自己Python功底的工具,當然有些時候,資料分析師也需要自己爬取一些資料。
Python資料探索及預處理方法在學習了以上內容後,還需要學習一些常用的資料探索及預處理方法,才能夠用Python進行一些基礎統計分析,因為很多時候在分析資料前,還需要對資料進行探索及預處理。
Python機器學習在學習了以上內容後,就可以學習更強大也更復雜的分析方法了,也就說所謂的資料探勘,主要工具就是機器學習。
1、機器學習緒論
首先需要了解機器學習,及其常見術語。
2、機器學習常用演算法
機器學習常用演算法分為兩類,監督學習和無監督學習。
大部分演算法可以透過呼叫Scikit-learn中的現成演算法來實現,當然可以自己編寫演算法,前提是數學功底要好,而且要對演算法的原理掌握得很透徹。
回答完畢!
-
3 # Excel和VBA
學習下python的pandas方法就可以了,先判斷資料是否有缺失,然後缺失的處理、重複資料的處理,中位數,平均值等都可以處理了
-
4 # IT人劉俊明
在不同的場景下通常可以採用不同的資料分析方式,比如對於大部分職場人來說,Excel可以滿足大部分資料分析場景,當資料量比較大的時候可以透過學習資料庫知識來完成資料分析任務,對於更復雜的資料分析場景可以透過BI工具來完成資料分析。透過工具進行資料分析一方面比較便捷,另一方面也比較容易掌握。
但是針對於更加開放的資料分析場景時,就需要透過程式設計的方式來進行資料分析了,比如透過機器學習的方式進行資料分析,而Python語言在機器學習領域有廣泛的應用。採用機器學習的方式進行資料分析需要經過五個步驟,分別是資料準備、演算法設計、演算法訓練、演算法驗證和演算法應用。
採用機器學習進行資料分析時,首先要了解一下常見的演算法,比如knn、決策樹、支援向量機、樸素貝葉斯等等,這些演算法都是機器學習領域非常常見的演算法,也具有比較廣泛的應用場景。當然,學習這些演算法也需要具備一定的線性代數和機率論基礎。學習不同的演算法最好結合相應的應用場景進行分析,有的場景也需要結合多個演算法進行分析。另外,透過場景來學習演算法的使用會盡快建立畫面感。
採用Python進行資料分析還需要掌握一系列庫的使用,包括Numpy(矩陣運算庫)、Scipy(統計運算庫)、Matplotlib(繪相簿)、pandas(資料集操作)、Sympy(數值運算庫)等庫,這些庫在Python進行資料分析時有廣泛的應用。
-
5 # 軟體開發與運維
推薦你看一本書《python for data analysis》
這本書幾乎是資料分析入門必讀書了。主要介紹了python3個庫numpy(陣列),pandas(資料分析)和matplotlib(繪圖)的學習。
這本書的第2版是基於Python3
-
6 # 思凡79
python資料分析的門檻較低,如果是python零基礎開始學,學習的步驟大概是python基礎、資料採集、資料處理、資料分析、資料視覺化。
首先學習一點python基礎的知識,Python語言基礎,函式,檔案操作,面向物件,異常處理,模組和包,Linux系統使用,Mysql資料庫等;
其次就可以學習一些基本的爬蟲,進行資料採集,當然也有很多爬蟲工具,直接使用即可。
然後就可以學習資料分析方面知識,主要是學習pandas、numpy等等;
再然後就要學習資料視覺化來向別人展現資料,常用matplotlib實現,主要包括一些基本的統計圖的繪製,比如條形圖,柱狀圖,散點圖。還有一些進階繪圖,比如分位數圖,相關係數圖等等。還需要掌握3D繪圖視覺化。
回覆列表
興趣是最大的老師,我認為首先你要非常熱愛程式設計,熱愛資料分析,這樣才會堅持下去。
1. Python 基礎
如果你對 Python 語言不太瞭解,需要首先學習一下 Python 基礎的語法,瞭解基礎的資料結構。雖然不用深入的學習,一些基本的如:變數,型別,資料結構,類、模組和包等等都需要了解怎麼使用。
2. 資料分析的第三方庫
熟悉了基本的 Python 語法外,接下來就要學習資料分析相關的庫。下面是比較流行的庫:
NumPy 全名是 Numeric Python,它提供了強大的 n-dimensional 陣列型別,以及包含基本的線性代數函式(linear algebra functions)、傅立葉變換(Fourier transforms)、隨機數生成函式和整合其他語言如 C/C++ 的能力。
SciPy 代表 Scientific Python,它是基於 NumPy 的,提供了高階的科學和工程模組例如:離散傅立葉變換(discrete Fourier transform)、線性代數(Linear Algebra)和稀疏矩陣(sparse matrices)等等。
Matplotlib 是一個數據視覺化的庫,可以做直方圖(Histograms)、折線圖和柱狀圖等等。
Pandas 用來操作處理結構化的資料,它常常用來做資料探勘。
Scikit Learn 是做機器學習的庫,基於 NumPy, SciPy 和 Matplotlib。提供了有效的工具來做機器學習(machine learning)、資料統計(statistical)、分類(classification)、迴歸分析(regression)、聚類(clustering)和 資料降維(dimensionality reduction)等等。
Statsmodels 包含很多統計模型,允許使用者進行探索性資料分析(data explore)、估計統計模型(estimate statistical models)和做一些統計測試。
Seaborn 是做資料視覺化的庫,基於 matplotlib。它提供了高階介面可以很快做出富有吸引力和資訊表現力的圖表。