回覆列表
-
1 # 使用者530666102217
-
2 # 使用者1118591128512
pandas提供了一個靈活高效的groupby功能,它使你能以一種自然的方式對資料集進行切片、切塊、摘要等操作。根據一個或多個鍵(可以是函式、陣列或DataFrame列名)拆分pandas物件。計算分組摘要統計,如計數、平均值、標準差,或使用者自定義函式。對DataFrame的列應用各種各樣的函式。應用組內轉換或其他運算,如規格化、線性迴歸、排名或選取子集等。計算透視表或交叉表。執行分位數分析以及其他分組分析。 1、首先來看看下面這個非常簡單的表格型資料集(以DataFrame的形式): 123456789101112 >>> import pandas as pd>>> df = pd.DataFrame({"key1":["a", "a", "b", "b", "a"],... "key2":["one", "two", "one", "two", "one"],... "data1":np.random.randn(5),... "data2":np.random.randn(5)})>>> df data1 data2 key1 key20 -0.410673 0.519378 a one1 -2.120793 0.199074 a two2 0.642216 -0.143671 b one3 0.975133 -0.592994 b two4 -1.017495 -0.530459 a one 假設你想要按key1進行分組,並計算data1列的平均值,我們可以訪問data1,並根據key1呼叫groupby: 123 >>> grouped = df["data1"].groupby(df["key1"])>>> grouped
這些函式可以統稱為"聚合函式"
mysql:
1、AVG()返回某列的平均值
2、COUNT()返回某列的行數
3、MAX()返回某列的最大值
4、MIN()返回某列的最小值
5、SUM()返回某個列之和
除此之外, sqlserver中還有些很少用的:
1、 求方差:var
2、 求總體方差:varp
3、 標準偏差:stdev
4、 求總體標準偏差:stdevp
5、 求校驗和:checksum_agg
6、 求個數:count_big
7、 用於測試 cube 或 rollup 空值:grouping