Pandas是Python下一個開源資料分析的庫,它提供的資料結構DataFrame極大的簡化了資料分析過程中一些繁瑣操作。1. 基本使用:建立DataFrame. DataFrame是一張二維的表,大家可以把它想象成一張Excel表單或者Sql表。Excel 2007及其以後的版本的最大行數是1048576,最大列數是16384,超過這個規模的資料Excel就會彈出個框框“此文字包含多行文字,無法放置在一個工作表中”。Pandas處理上千萬的資料是易如反掌的sh事情,同時隨後我們也將看到它比SQL有更強的表達能力,可以做很多複雜的操作,要寫的code也更少。說了一大堆它的好處,要實際感觸還得動手碼程式碼。首要的任務就是建立一個DataFrame,它有幾種建立方式:(1)列表,序列(pandas.Series), numpy.ndarray的字典二維numpy.ndarray別的DataFrame結構化的記錄(structured arrays)(2)其中,二維ndarray建立DataFrame,程式碼敲得最少:import pandas as pdimport numpy as npdf = pd.DataFrame(np.random.randn(10, 4))df0 1 2 30 0.927474 0.127571 1.655908 0.5708181 -0.425084 -0.382933 0.468073 -0.8628982 -1.602712 -0.225793 -0.688641 1.1674773 -1.771992 -0.692575 -0.693494 -1.0636974 -0.456724 0.371165 1.883742 -0.3441895 1.024734 0.647224 1.134449 0.2667976 1.247507 0.114464 2.271932 -0.6827677 -0.190627 -0.096997 -0.204778 -0.4401558 -0.471289 -1.025644 -0.741181 -1.7072409 -0.172242 0.702187 -1.138795 -0.112005(3)透過describe方法,可以對df中的資料有個大概的瞭解:df.describe()0 1 2 3count 10.000000 10.000000 10.000000 10.000000mean -0.189096 -0.046133 0.394722 -0.320786std 1.027134 0.557420 1.258019 0.837497min -1.771992 -1.025644 -1.138795 -1.70724025% -0.467648 -0.343648 -0.692281 -0.81786550% -0.307856 0.008734 0.131648 -0.39217275% 0.652545 0.310266 1.525543 0.172096max 1.247507 0.702187 2.271932 1.1674772. 改變cell。3. group by。4. 讀寫檔案。
Pandas是Python下一個開源資料分析的庫,它提供的資料結構DataFrame極大的簡化了資料分析過程中一些繁瑣操作。1. 基本使用:建立DataFrame. DataFrame是一張二維的表,大家可以把它想象成一張Excel表單或者Sql表。Excel 2007及其以後的版本的最大行數是1048576,最大列數是16384,超過這個規模的資料Excel就會彈出個框框“此文字包含多行文字,無法放置在一個工作表中”。Pandas處理上千萬的資料是易如反掌的sh事情,同時隨後我們也將看到它比SQL有更強的表達能力,可以做很多複雜的操作,要寫的code也更少。說了一大堆它的好處,要實際感觸還得動手碼程式碼。首要的任務就是建立一個DataFrame,它有幾種建立方式:(1)列表,序列(pandas.Series), numpy.ndarray的字典二維numpy.ndarray別的DataFrame結構化的記錄(structured arrays)(2)其中,二維ndarray建立DataFrame,程式碼敲得最少:import pandas as pdimport numpy as npdf = pd.DataFrame(np.random.randn(10, 4))df0 1 2 30 0.927474 0.127571 1.655908 0.5708181 -0.425084 -0.382933 0.468073 -0.8628982 -1.602712 -0.225793 -0.688641 1.1674773 -1.771992 -0.692575 -0.693494 -1.0636974 -0.456724 0.371165 1.883742 -0.3441895 1.024734 0.647224 1.134449 0.2667976 1.247507 0.114464 2.271932 -0.6827677 -0.190627 -0.096997 -0.204778 -0.4401558 -0.471289 -1.025644 -0.741181 -1.7072409 -0.172242 0.702187 -1.138795 -0.112005(3)透過describe方法,可以對df中的資料有個大概的瞭解:df.describe()0 1 2 3count 10.000000 10.000000 10.000000 10.000000mean -0.189096 -0.046133 0.394722 -0.320786std 1.027134 0.557420 1.258019 0.837497min -1.771992 -1.025644 -1.138795 -1.70724025% -0.467648 -0.343648 -0.692281 -0.81786550% -0.307856 0.008734 0.131648 -0.39217275% 0.652545 0.310266 1.525543 0.172096max 1.247507 0.702187 2.271932 1.1674772. 改變cell。3. group by。4. 讀寫檔案。