回覆列表
-
1 # 程式設計字典
-
2 # 外星人玩Python
看到很多答非所問或者列出一大堆具體方法。本質上大多的核心使用都是圍繞著
DataFrame進行。
我來說說以下要點(下文用df表示DataFrame):
1. 篩選處理資料最經常做的就是過濾篩選資料,因此怎麼對 df 做過濾篩選就很重要。
loc , iloc , xs :這3個方法必須熟練。
query :高效的過濾,注意學會怎麼對多層索引進行過濾。
表示式過濾 : df[df["col"]==value] ,這種也需要很熟練。
2. 彙總資料我們需要經常對資料進行分組彙總。
groupby :理解這個過程。
分組後的操作 : apply , agg , transform 。需要理解他們的機制,並且知道他們是為了解決啥問題的。
pivot_table : 很多人把透視作為groupby的簡化操作,這個理解不夠深入。透視是讓你用支點固定資料,把長表變寬。學會使用他很容易,但怎麼把自己的資料思維快速應用透視表去表達卻是不容易。特別注意關於 index,column,values 是分別為了解決資料哪些維度的問題。
melt : 透視的逆向操作。3. 其他的資料描述或統計在探索分析時,經常需要對資料做整體理解以及每個欄位的關係描述。
df.describe
,df.corr
等等,太多了,不一一列舉。值得注意的是,要明確知道啥場景使用他們才是最重要。
最後上述其實只是說了一部分而已。具體有哪些需要補充,其實看你從事哪方面的工作。我們不可能把所有精力放在各方面的,要用二八定律去分配吧。
-
3 # AniPython
pandas操作excel兩大核心函式,merge 對應excel的vlookup函式,pivot_table對應excel表的透視表操作,用於辦公室自動化非常好用
Pandas的主要特點
使用預設和自定義索引的快速高效的DataFrame物件。用於將資料從不同檔案格式載入到記憶體資料物件的工具。資料對齊和缺失資料的整合處理。重新設定和旋轉日期集。大資料集的基於標籤的分片,索引和子集。資料結構中的列可以被刪除或插入。按資料分組進行聚合和轉換。高效能的資料合併和連線。時間序列功能。