「Python資料處理」3.3

首頁>技術>一起學習python大資料2021-02-23 21:35

「Python資料處理」3.3

3.3序列和資料框作為pandas包中兩種非常重要的資料結構，同時他們之間也有緊密的聯絡，資料框可以視為由多個序列組成，它們具有相同的索引，取出資料框中的一列則為序列。在資料處理中，往往是採用不同的資料結構進行相互轉化，並利用特定資料結構中的方法計算和處理資料。請讀取地鐵站點進出站客流資料表（Data.xlsx），完成以下任務：1）取出第0列，透過去重的方式獲得地鐵站點編號的個數；2）採用資料框中的groupby分組計算函式，統計出每個站點每天的進站人數和出站人數，計算結果採用一個數據框df來表示，其中列標籤依次為站點編號、日期、進站人數和出站人數；3）計算出每個站點國慶節期間（10.1~10.7）的進站人數和出站人數。

[知識點及要求]資料框邏輯索引切片和基本切片方法，groupby分組計算函式應用。

示例程式碼如下：

import pandas as pd

data = pd.read_excel('Data.xlsx')

dt = data.iloc[:,0]

dt =dt.unique()

df = data.groupby(['日期','站點編號']).sum()

L = list(df.index)

zd = []

rq = []

jz = []

cz = []

for i in range(len(L)):

riqi = str(L[i])[2:12]

zhandian = str(L[i])[14:-1]

rq.append(riqi)

zd.append(zhandian)

jz.append(df.iloc[i,1])

cz.append(df.iloc[i,2])

df1 = pd.DataFrame({'站點編號':zd,'日期':rq,'進站人數':jz,'出站人數':cz})

data1 = data.loc[data['日期'].values<='2015-10-07']

df2 = data1.groupby(['站點編號']).sum()

執行結果如下圖：

更多內容請見網易雲課堂Python大資料學習吧：

https://study.163.com/provider/480000002230206/index.htm?share=2&shareId=480000002230206

∨ LiteOS核心原始碼分析系列一盤點那些重要的資料結構（3）

熱門排行

劇多

「Python資料處理」3.3