首頁>技術>

本為為Python三劍客pandas的函式簡易彙總,如有相關需要,可進行查閱。

1.建立語法

# 按照列建立資料框df = pd.DataFrame(          {"a" : [4 ,5, 6],            "b" : [7, 8, 9],            "c" : [10, 11, 12]},            index = [1, 2, 3])# 按照行建立資料框df = pd.DataFrame(     [[4, 7, 10],      [5, 8, 11],      [6, 9, 12]],      index=[1, 2, 3],      columns=['a', 'b', 'c'])
資料處理方法
# 多個數據處理方法可組合使用df = (pd.melt(df)        .rename(columns={                'variable' : 'var',                  'value' : 'val'})        .query('val >= 200')     )
資料重建
# 類似R語言gather和spreadpd.melt(df)df.pivot(columns='var', values='val')# 分組df.groupby(by="col")# 匹配組合兩個資料集pd.merge(adf, bdf, how='left', on='x1')# 直接整合兩個資料集pd.concat([df1,df2])# 排序df.sort_values('mpg')df.sort_values('mpg',ascending=False)# 重新命名df.rename(columns = {'y':'year'})# 索引操作df.sort_index()df.reset_index()# 刪除某列df.drop(columns=['Length','Height'])#建立新列df.assign(Area=lambda df: df.Length*df.Height)df['Volume'] = df.Length*df.Height*df.Depth#qcut可以把一組數字按大小區間進行分割槽pd.qcut(df.col, n, labels=False)
資料清理
# 篩選df[df.Length > 7]# 去重df.drop_duplicates()# 檢視n列df.head(n)df.tail(n)# 隨機選擇行(安裝比例或者數量)df.sample(frac=0.5)df.sample(n=10)# 選擇某行或某列df.iloc[10:20]df[['width','length','species']].df.filter(regex='regex')# 空值處理df.dropna()df.fillna(value)
資料視覺化化
# 直方圖df.plot.hist()# 散點圖df.plot.scatter(x='w',y='h')

12
最新評論
  • BSA-TRITC(10mg/ml) TRITC-BSA 牛血清白蛋白改性標記羅丹明
  • R語言之資料型別