極值分析(EVA)是一種統計方法,主要用於估計與以前觀察到的事件相比最罕見的事件的機率。應用領域通常是工程,氣象,水文學,金融和海洋學。
這是一種存在於不同年份的方法,用於處理與參考分佈的極端偏差。
在評估異常學習應用中的深度學習模型時,我們使用EVA。我們不會嘗試重新發明任何東西,我們只是使用極值理論來對我們的監督方法的結果提供額外的解釋。我們的方法與演算法無關,可以輕鬆地進行概括或修改以適合每個建模管道。
在本文中,我們基於深度學習結構開發了時間序列預測應用程式。正確驗證後,我們將透過EVA檢查預測的可靠性。我們檢查在選定的控制週期內產生的殘差,以區分它們的“極端”程度以及將來出現的“頻率”。生成關於這些方面的統計資料和置信度可以使我們指出異常,即我們的深度學習框架未建模的情況在將來會如何顯示。
按日分類的犯罪彙總系列
但是,可以在每週和每月的水平上檢測到某種形式的季節性。
犯罪季節性水平系列
我們使用這些資訊來建立一個預測模型,根據過去的觀察序列,該模型可以預測未來幾天的未來犯罪。為此,我們開發了Seq2Seq LSTM自動編碼器。它的結構非常適合對我們的資料建模,因為我們可以將原始時間訊號與時間嵌入的建立結合在一起。編碼器輸入的是數字輸入序列(目標歷史記錄的序列)以及歷史工作日和月份的數字嵌入。解碼器接收解碼器輸出以及未來工作日和月份的數字嵌入,以產生提前7天的預測。
下面將描述在我們的驗證集上生成的預測以及針對每個未來時滯計算的相應效能。我們的參考基準是透過最後一次有效觀察的虛擬重複構成的。
現實與不同時間範圍的預測
在不同時間範圍內計算出的MSE
極值分析至此,我們已經對模型的最佳化版本進行了訓練,可以立即使用。我們現在要嘗試的是使用EVA典型技術來解釋效能。對於我們的實驗,術語“驗證集”用於以更通用的方式定義“控制組”,即用於操作調整和EVA應用的時間間隔。
我們感興趣的第一個成分是模型在驗證集上產生的殘差。我們將殘差的絕對值視為極值。這種選擇是合理的,因為它們代表了未知的情況,在這些情況下我們的預測模型顯示出缺乏效能。換句話說,我們的模型傾向於錯誤的情況尚未得到研究,因此被標記為異常事件。
異常的程度由與現實和預測的距離來衡量。EVA的標準方法包括將所有高於固定閾值的觀測值識別為異常/極端(峰值超過閾值),或構建將原始序列分成多個塊的最大序列(塊最大值方法)。方法的選擇與領域相關,並且可以產生不同的結果。
從左起:將殘差最大值方法應用於殘差序列;在每個區塊中檢測到的一系列最大點(作者提供的圖片)
第二步包括對極值建模。我們要分配參考值的分佈來源。根據之前關於如何選擇異常/極端的選擇,我們有不同的候選分佈。對於我們的工作,我們選擇“塊最大值”方法,其塊長度為30天。透過這種方法,我們有信心認為極端事件是從廣義極值(GEV)或Gumble分佈中提取的。該選擇可以透過數學方法執行最大似然估計,然後從中選擇具有最佳引數的最佳分佈。
異常/極端的經驗和估計分佈
有了這些作品,我們就準備好邁出最後一步。我們只需要選擇一些時間步,從技術上講就是返回期,就可以在其上計算相對返回值。對於每個返回期,我們可以預期至少有一個例項超過了估計的返回值。給定t為回報期,預期回報值(E)意味著在接下來的t * 30天中,我們可以預期看到一些超過E的值,其機率等於1 / t。在我們的特定研究案例中,返回值是我們可能期望在即將到來的將來超過的殘差,即可以歸類為異常的意外事件。
在下面的圖中,我們可以顯示模型化的未來回報值,以及對我們的驗證集所觀察到的最大觀察值。下表更正式地總結了我們的發現。例如,第一行說在接下來的30天內,我們可以預期(相對較高的機率)觀測值超過模型絕對值的21個絕對點。以同樣的方式,最後一行說,我們可以期望(相對較低的可能性)在接下來的3000天中觀察到的超出我們模型預測值的53個絕對點。使用自舉統計資訊來計算置信區間。
t + 1時殘差的返回值圖。紅色表示在每個塊中檢測到的一系列最大值點。以藍色表示的預期回報值以及相對的自舉間隔
t + 1時殘差的返回值表
所解釋的過程適用於具有一步一步預測的殘差,但可以使用其他預測範圍來計算該過程。
在t + 7處的殘差的返回值圖。紅色表示在每個塊中檢測到的一系列最大值點。以藍色表示的預期回報值以及相對的自舉間隔
t + 7時殘差的返回值表
概要在這篇文章中,我們提出了一個時間序列預測任務。首先,我們為多步提前預測構建了Seq2Seq模型。其次,我們試圖結合來自極值理論的一些技術對模型進行進一步的解釋。我們利用這種組合來解釋可能出現在模型無法識別的正常資料流中的異常