回覆列表
  • 1 # 程式設計字典

    Pandas的主要特點

    使用預設和自定義索引的快速高效的DataFrame物件。用於將資料從不同檔案格式載入到記憶體資料物件的工具。資料對齊和缺失資料的整合處理。重新設定和旋轉日期集。大資料集的基於標籤的分片,索引和子集。資料結構中的列可以被刪除或插入。按資料分組進行聚合和轉換。高效能的資料合併和連線。時間序列功能。

  • 2 # 外星人玩Python

    看到很多答非所問或者列出一大堆具體方法。本質上大多的核心使用都是圍繞著

    DataFrame進行。

    我來說說以下要點(下文用df表示DataFrame):

    1. 篩選

    處理資料最經常做的就是過濾篩選資料,因此怎麼對 df 做過濾篩選就很重要。

    loc , iloc , xs :這3個方法必須熟練。

    query :高效的過濾,注意學會怎麼對多層索引進行過濾。

    表示式過濾 : df[df["col"]==value] ,這種也需要很熟練。

    2. 彙總資料

    我們需要經常對資料進行分組彙總。

    groupby :理解這個過程。

    分組後的操作 : apply , agg , transform 。需要理解他們的機制,並且知道他們是為了解決啥問題的。

    pivot_table : 很多人把透視作為groupby的簡化操作,這個理解不夠深入。透視是讓你用支點固定資料,把長表變寬。學會使用他很容易,但怎麼把自己的資料思維快速應用透視表去表達卻是不容易。特別注意關於 index,column,values 是分別為了解決資料哪些維度的問題。

    melt : 透視的逆向操作。3. 其他的資料描述或統計

    在探索分析時,經常需要對資料做整體理解以及每個欄位的關係描述。

    df.describe

    df.corr

    等等,太多了,不一一列舉。

    值得注意的是,要明確知道啥場景使用他們才是最重要。

    最後

    上述其實只是說了一部分而已。具體有哪些需要補充,其實看你從事哪方面的工作。我們不可能把所有精力放在各方面的,要用二八定律去分配吧。

  • 3 # AniPython

    pandas操作excel兩大核心函式,merge 對應excel的vlookup函式,pivot_table對應excel表的透視表操作,用於辦公室自動化非常好用

  • 中秋節和大豐收的關聯?
  • 20歲了還能長高嗎?怎麼長高?