首頁>技術>

3.3序列和資料框作為pandas包中兩種非常重要的資料結構,同時他們之間也有緊密的聯絡,資料框可以視為由多個序列組成,它們具有相同的索引,取出資料框中的一列則為序列。在資料處理中,往往是採用不同的資料結構進行相互轉化,並利用特定資料結構中的方法計算和處理資料。請讀取地鐵站點進出站客流資料表(Data.xlsx),完成以下任務:1)取出第0列,透過去重的方式獲得地鐵站點編號的個數;2)採用資料框中的groupby分組計算函式,統計出每個站點每天的進站人數和出站人數,計算結果採用一個數據框df來表示,其中列標籤依次為站點編號、日期、進站人數和出站人數;3)計算出每個站點國慶節期間(10.1~10.7)的進站人數和出站人數。

[知識點及要求]資料框邏輯索引切片和基本切片方法,groupby分組計算函式應用。

示例程式碼如下:

import pandas as pd

data = pd.read_excel('Data.xlsx')

dt = data.iloc[:,0]

dt =dt.unique()

df = data.groupby(['日期','站點編號']).sum()

L = list(df.index)

zd = []

rq = []

jz = []

cz = []

for i in range(len(L)):

riqi = str(L[i])[2:12]

zhandian = str(L[i])[14:-1]

rq.append(riqi)

zd.append(zhandian)

jz.append(df.iloc[i,1])

cz.append(df.iloc[i,2])

df1 = pd.DataFrame({'站點編號':zd,'日期':rq,'進站人數':jz,'出站人數':cz})

data1 = data.loc[data['日期'].values<='2015-10-07']

df2 = data1.groupby(['站點編號']).sum()

執行結果如下圖:

更多內容請見網易雲課堂Python大資料學習吧:

https://study.163.com/provider/480000002230206/index.htm?share=2&shareId=480000002230206

7
最新評論
  • BSA-TRITC(10mg/ml) TRITC-BSA 牛血清白蛋白改性標記羅丹明
  • LiteOS核心原始碼分析系列一盤點那些重要的資料結構 (3)