3.3序列和資料框作為pandas包中兩種非常重要的資料結構,同時他們之間也有緊密的聯絡,資料框可以視為由多個序列組成,它們具有相同的索引,取出資料框中的一列則為序列。在資料處理中,往往是採用不同的資料結構進行相互轉化,並利用特定資料結構中的方法計算和處理資料。請讀取地鐵站點進出站客流資料表(Data.xlsx),完成以下任務:1)取出第0列,透過去重的方式獲得地鐵站點編號的個數;2)採用資料框中的groupby分組計算函式,統計出每個站點每天的進站人數和出站人數,計算結果採用一個數據框df來表示,其中列標籤依次為站點編號、日期、進站人數和出站人數;3)計算出每個站點國慶節期間(10.1~10.7)的進站人數和出站人數。
[知識點及要求]資料框邏輯索引切片和基本切片方法,groupby分組計算函式應用。
示例程式碼如下:
import pandas as pd
data = pd.read_excel('Data.xlsx')
dt = data.iloc[:,0]
dt =dt.unique()
df = data.groupby(['日期','站點編號']).sum()
L = list(df.index)
zd = []
rq = []
jz = []
cz = []
for i in range(len(L)):
riqi = str(L[i])[2:12]
zhandian = str(L[i])[14:-1]
rq.append(riqi)
zd.append(zhandian)
jz.append(df.iloc[i,1])
cz.append(df.iloc[i,2])
df1 = pd.DataFrame({'站點編號':zd,'日期':rq,'進站人數':jz,'出站人數':cz})
data1 = data.loc[data['日期'].values<='2015-10-07']
df2 = data1.groupby(['站點編號']).sum()
執行結果如下圖:
更多內容請見網易雲課堂Python大資料學習吧:
https://study.163.com/provider/480000002230206/index.htm?share=2&shareId=480000002230206