編輯
曾幾何時,是關係型數據,一統天下。
但這個局面被打破了。
時間序列數據,也稱為時間戳數據,是按時間順序索引的數據點序列。
時間序列數據是通過隨時間重複測量獲得的觀察結果的集合。在圖表上繪製點,您的軸之一始終是時間。
時間序列指標是指以時間增量跟蹤的一段數據。例如,一個指標可以指從一天到下一天在商店中售出多少庫存。
時間序列數據無處不在,因為時間是所有可觀察事物的組成部分。隨著我們的世界越來越儀器化,傳感器和系統不斷地發出無情的時間序列數據流。此類數據在各個行業都有大量應用。讓我們通過一些例子來說明這一點。
時間序列分析示例:
-
大腦中的電活動
-
降雨量測量
-
股票價格
-
太陽黑子數量
-
年零售額
-
每月訂閱者
-
每分鐘心跳數
什麼是時間序列圖?
時間序列圖只是一個軸(通常是 Y)上的時間序列數據與另一軸(通常是 X)上的時間的簡單圖。時間序列數據點的圖表通常可以以更易於訪問、更直觀的方式說明趨勢或模式。
什麼是時間圖統計?
時間序列圖是一個圖表,其中 x 軸表示某種時間度量。事實上,x 軸被標記為時間軸。y 軸代表被測量的變量。在大多數情況下,數據點以直線顯示並連接,從而可以解釋結果圖。
時間序列示例
請注意時間(下圖底部所示)軸。
示例 1:天氣條件
在下面的下一張圖表中,將時間作為衡量股票價格變化的軸。在投資中,時間序列跟蹤數據點的移動,例如特定時間段內的證券價格,並定期記錄數據點。這可以在短期(例如證券在一個工作日內的每小時價格)或長期(例如證券在五年內每個月的最後一天收盤時的價格)進行跟蹤)。
編輯
示例 2:證券交易所
編輯
示例 3:集群監控
下面的集群監控示例描述了磁盤操作寫入和使用數據,對於網絡運營中心團隊來說應該很熟悉。請記住,監控數據是時間序列數據。
編輯
另一個熟悉的時間序列數據示例是患者健康監測,例如心電圖 (ECG),它監測心臟活動以顯示其是否正常工作。
示例 4:健康監控
編輯編輯
示例 5:日誌
跟蹤(應用程序在執行期間執行的子例程調用的列表)也是時間序列數據。在下面的跟蹤圖中的彩色條帶上,您可以看到時間序列數據的示例。跟蹤的目標是跟蹤程序的流程和數據進程。跟蹤包括一個廣泛的、連續的應用程序視圖,以查找程序或應用程序中的錯誤。
編輯
示例 6:跟蹤
上面的示例包含兩種不同類型的時間序列數據,如下所述。
編輯
時間序列數據的類型
時間序列數據可以分為兩類:1.定期收集的測量值(指標)2.以不規則的時間間隔(事件)收集的測量值。
編輯
在上面的“時間序列數據示例”部分:
-
示例 3(集群監控)和 4(健康監控)描述了 指標。
-
示例 5(日誌)和示例 6(跟蹤)描述了 事件。
-
線性與非線性時間序列數據
線性時間序列是這樣一種,對於每個數據點 X t,該數據點可以被視為過去或未來值或差異的線性組合。非線性時間序列由非線性動態方程生成。它們具有無法通過線性過程建模的特徵:時變方差、不對稱循環、高矩結構、閾值和中斷。以下是處理線性和非線性時間序列數據時的一些重要注意事項:
-
如果迴歸方程不遵循線性模型的規則,那麼它一定是非線性模型。
-
非線性迴歸可以擬合各種各樣的曲線。
-
這兩種模型的定義特徵是功能形式。
時間序列數據 的獨特之處在於它具有自然的時間順序:觀察數據的順序很重要。時間序列數據與常規數據的主要區別在於,隨著時間的推移,您總是會提出有關它的問題。確定您正在使用的數據集是否是時間序列的一種通常簡單的方法是查看您的一個軸是否是時間。
-
時間序列注意事項
不變性——由於時間序列數據按時間順序出現,它幾乎總是記錄在一個新條目中,因此,應該是不可變的並且只能附加(附加到現有數據中)。它通常不會改變,而是按照事件發生的順序進行。此屬性將時間序列數據與通常是可變的並存儲在進行在線事務處理的關係數據庫中的關係數據區分開來,其中數據庫中的行隨著事務的運行而更新,並且或多或少是隨機的;例如,為現有客戶下訂單,更新客戶表以添加購買的商品,並更新庫存表以顯示它們不再可供銷售。
時間序列數據是有序的這一事實使其在數據空間中是獨一無二的,因為它經常顯示出序列依賴性。當一個數據點的值在統計上依賴於另一個時間的另一個數據點時,就會發生串行依賴(有關此主題的詳細說明,請閱讀“時間序列數據中的自相關”)。
儘管沒有時間之外的事件存在,但有些事件與時間無關。時間序列數據不僅僅是關於按時間順序發生的事情——它是關於當你將時間添加為軸時價值增加的事件。時間序列數據有時以高粒度存在,頻率可達微秒甚至納秒。使用 時間序列數據,隨時間變化就是一切。
不同形式的時間序列數據 ——時間序列數據並不總是數字——它可以是 int64、float64、bool 或 string。
要確定您的數據是否為時間序列數據,請確定您需要什麼來確定數據集中的唯一記錄。
-
如果您只需要一個時間戳,那麼它可能是時間序列數據。
-
如果您需要時間戳以外的其他內容,則可能是橫截面數據。
-
如果您需要時間戳加上其他內容,例如 ID,則可能是面板數據。
回顧一下這三種數據類型的定義(以及它們之間的區別),上述含義變得更加清晰:
時間序列數據定義
時間序列數據是單個主題 (實體)在 不同時間間隔 (通常在度量的情況下等間距,或在事件的情況下不等間距)的觀察 (行為) 的集合 。
例如:在每年的第一天(多個時間間隔)收集的紐約市(單個實體)的最高溫度、溼度和風(所有三種行為)
時間作為軸的相關性使得時間序列數據有別於其他類型的數據。
橫截面數據定義
橫截面數據是 多個主體 (實體,例如不同的個人或群體)在 單個時間點的觀察 (行為) 集合。
例如:2015 年 1 月 1 日紐約市、舊金山市、波士頓、芝加哥(多個實體)的最高溫度、溼度和風(所有三種行為)(單實例)
在橫斷面研究中,觀察結果沒有自然的順序(例如,通過參考他們各自的教育水平來解釋人們的工資,個人數據可以按任何順序輸入)。
例如:一組 50 只股票在給定時間的收盤價,給定產品在特定商店的庫存庫存,以及一組學生在給定考試中獲得的成績列表。
面板數據(縱向數據)定義
面板數據通常被稱為橫截面時間序列數據,因為它是上述類型的組合(即 在多個實例中收集多個對象的觀察結果)。
面板數據或縱向數據是涉及隨時間變化的測量的多維 數據。面板數據包含對同一公司或個人在多個時間段內獲得的多種現象的觀察。使用面板數據的研究稱為縱向研究或面板研究。
例如:每年第一天(多個時間間隔)在紐約市、舊金山市、波士頓、芝加哥(多個實體)的最高溫度、溼度和風(所有三種行為)。
三種數據類型的區別
基於上面的定義和例子,讓我們回顧一下這三種數據類型之間的區別:
1.時間序列是一段時間內對單個實體的 一組觀察結果——例如,單個金融證券一年內的每日收盤價,或在一小時過程中每分鐘測量的單個患者心率。2.橫截面是在同一時間對多個實體進行的 一組觀察——例如,每家標準普爾 500 指數公司今天的收盤價,或 100 名患者在同一程序開始時的心率。3.如果您的數據是按兩個維度組織的——例如,500 家公司一年內的每日收盤價——那麼您就有 面板 數據。
時間序列數據被收集、存儲、可視化和分析,用於 不同領域的各種目的:
-
在數據挖掘、模式識別和機器學習中,時間序列分析用於聚類、分類、按內容查詢、異常檢測和預測。
-
在信號處理、控制工程和通信工程中,時間序列數據用於信號檢測和估計。
-
在統計學、計量經濟學、定量金融學、地震學、氣象學和地球物理學中,時間序列分析用於預測。
時間序列數據可以 在不同類型的圖表中可視化, 以促進洞察力提取、趨勢分析和異常檢測。時間序列可視化和儀表板工具包括 InfluxDB UI 和 Grafana。
術語“時間序列模式”描述了序列中的長期變化。無論是作為趨勢、季節性還是循環模式來衡量,相關性都可以通過多種方式(線性、指數等)計算,並且方向可能在任何給定時間發生變化。
時間序列數據用於時間序列分析(歷史或實時)和時間序列預測,以檢測和預測模式——本質上是觀察隨時間的變化。以下是每個的簡要概述。
時間序列分析方法
時間序列分析是一種分析一段時間內收集的一系列數據點的方法。在時間序列分析中,數據點在設定的時間段內定期記錄,而不是間歇性或隨機記錄。
時間序列分析是使用統計方法來分析時間序列數據並提取有關數據的有意義的統計數據和特徵。TSA 有助於識別趨勢、週期和季節性變化,以幫助預測未來事件。與 TSA 相關的因素包括平穩性、季節性和自相關。
時間序列分析有助於查看給定變量如何隨時間變化(而時間本身,在時間序列數據中,通常是自變量)。時間序列分析還可用於檢查與所選數據點相關的變化與同一時間段內其他變量的變化相比如何。
瞭解有關時間序列分析方法的更多信息,包括譜分析、小波分析、自相關和互相關。
時間序列預測方法
時間序列預測使用有關歷史值和相關模式的信息來預測未來活動。
時間序列預測方法包括:
-
趨勢分析
-
週期性波動分析
-
季節性模式分析
與所有預測方法一樣,不能保證成功。機器學習通常用於此目的。它的經典前身也是如此:誤差、趨勢、季節性預測 (ETS)、自迴歸綜合移動平均線 (ARIMA) 和 Holt-Winters。
為了提前“看到事情”,時間序列建模(一種基於時間序列數據的預測方法)涉及處理基於時間的數據(年、日、小時、分鐘),以獲取為決策制定提供信息的潛在見解。當您=擁有序列相關的數據時,時間序列模型是非常有用的模型。
大多數企業使用時間序列數據來分析明年的銷售預測、網站流量、競爭定位等等。
瞭解有關時間序列預測方法的更多信息,包括分解模型、基於平滑的模型以及包括季節性在內的模型。
時間序列數據通常被大量攝取,需要專門構建的數據庫來處理其規模。使時間序列數據與其他數據工作負載非常不同的屬性是數據生命週期管理、彙總和對許多記錄的大範圍掃描。這就是為什麼時間序列數據最好存儲在 專門為處理帶時間戳的度量和事件或測量而構建的時間序列數據庫中的原因。最後,再補充兩個問題:什麼是時間序列統計?
時間序列統計是指從時間序列模型中提取的數據。這些信息必須定期記錄,並且可以與橫截面數據相結合以得出相關預測。
什麼是時間圖統計?
時間圖統計是指一個系列在特定時間間隔內的演變。它通常在分析開始時使用,以快速解釋從趨勢到異常的任何事情。
(完)親愛的數據編輯