硬核丨如何利用機器學習識別加密專案風險？

首頁>科技>加密谷2021-01-21 10:01

硬核丨如何利用機器學習識別加密專案風險？

作者 | Pengtai Xu

加密貨幣和監管的必要性

加密貨幣是一種存在於數字世界的交易媒介（另一種支付形式），依靠加密技術使交易安全。加密貨幣背後的技術允許使用者直接向他人傳送貨幣，而不需要透過第三方，如銀行。為了進行這些交易，使用者需要設定一個數字錢包，而不需要提供身份證號碼或信用評分等個人細節，因此可以讓使用者偽匿名。

對於普通的加密貨幣使用者來說，這種匿名性可以讓他們放心，因為他們的個人資訊或交易資料不會被駭客竊取。然而，這種交易匿名性的提高，也容易被犯罪分子濫用，進行洗錢、恐怖融資等非法活動。這種非法活動給區塊鏈錢包使用者以及加密貨幣實體都造成了巨大的損失。雖然金融行動特別工作組（FATF）等監管機構已經在這些實體的監管中引入了標準化的指導方針，但由於每天都有大量的加密貨幣實體和交易發生，監控加密貨幣空間是一項具有挑戰性的任務。

解決方案

因此，人們有興趣利用開源資訊，例如新聞網站或社交媒體平臺，來識別可能的安全漏洞或非法活動。在與Lynx Analytics的合作中，我們（來自新加坡國立大學的一個學生團隊）已經致力於開發一個自動工具，以刮取開源資訊，預測每篇新聞文章的風險分數，並標記出風險文章。這個工具將被整合到Cylynx平臺（https://www.cylynx.io/）中，這是Lynx Analytics開發的一個工具，用於幫助監管機構透過使用各種資訊源監控區塊鏈活動。

開源資訊的資料獲取

我們確定了3類開源資料，這些資料可以提供有價值的資訊，幫助檢測加密貨幣領域的可疑活動。這些類別是：

傳統的新聞網站，如谷歌新聞，它將報告重大的駭客事件。社交媒體網站，如Twitter和Reddit，在官方釋出駭客新聞之前，加密貨幣所有者可能會在那裡釋出有關駭客的訊息。

檢索文章和社交媒體帖子的內容，然後建立情緒分析模型。該模型為文章中提到的實體分配了一個風險活動的機率。

情緒分析模型

我們嘗試了四種不同的自然語言處理工具進行情緒分析，即VADER、Word2Vec、fastText和BERT模型。在透過選定的關鍵指標（召回率、精度和F1）對這些模型進行評估後，RoBERTa模型（BERT的一個變種）表現最佳，被選為最終模型。

圖片來源： https://www.codemotion.com/magazine/dev-hub/machine-learning-dev/bert-how-google-changed-nlp-and-how-to-benefit-from-this/

RoBERTa模型對新聞文章（標題和摘錄）或社交媒體帖子的文字進行處理，併為特定文字分配一個風險分數。由於該文字在資料收集過程中已經被標記為實體，我們現在已經有了加密實體的相關風險指標。在後期，我們將多個文字的風險分數結合起來，給出一個實體的整體風險分數。

風險評分

現在，每篇文章都有一個相關的來源（news/reddit/twitter），一個風險機率和一個計數，指的是文章被轉發、分享或轉發的次數。為了將這些風險機率轉換為加密貨幣實體的單一風險得分，我們首先將文章的機率值縮放到0到100的範圍內，並獲得每個來源的加權平均值，結合文章的風險得分和計數。加權平均數用於對計數較高的文章給予更大的重視，因為份額數量很可能表明文章的相關性或重要性。

該解決方案的有效性

我們在2020年1月1日至2020年10月30日的174個加密貨幣實體的名單上測試了我們的解決方案，並將結果與該時間段內的已知駭客案例進行了比較。我們發現，我們的風險評分方法表現相當出色，在37個已知的駭客案例中識別了32個。我們還分析了我們的解決方案對單個實體的有效性。下圖顯示了Binance從2020年1月1日至2020年10月30日的風險評分。虛線紅線代表已知的駭客案例。從圖中我們觀察到，我們的解決方案報告了5個已知駭客中的4個駭客的風險得分增加。也有幾個峰值與已知駭客案例不一致。然而，這並不構成一個主要問題，因為對我們的模型來說，更重要的是識別儘可能多的駭客，減少未識別的駭客數量。

有趣的發現

在風險評分過程中，我們注意到，與規模較小的實體相比，規模較大的實體的風險評分往往有較大比例的假陽性記錄。這是因為大型實體被談論得更多，因此會有更多的負面帖子和虛假謠言，從而導致更高的不準確率。

另一個值得強調的有趣趨勢是，圍繞著駭客攻擊通常有幾個明顯的高峰。這是由於不同資料來源的反應時間不同。社交媒體網站Twitter和Reddit通常是第一個看到高風險事件發生時的高峰，因為使用者會發帖提出他們觀察到的異常情況，比如一個實體的網站在沒有事先通知使用者的情況下宕機。官方訊息一般是在官方宣告之後，稍後才會釋出。

侷限性

我們發現，我們的解決方案有兩個潛在的侷限性，首先是需要不斷地維護收集器。網站設計可能會隨著時間的推移而改變，這些網站的刮擦器需要更新，以確保相關資訊仍能被檢索到，從而達到風險評分的目的。

第二個限制是，驗證一篇文章是否已被正確地標記為加密貨幣實體是具有挑戰性的。例如，一篇報道Bancor可疑活動的文章可能也會因為一個不相關的事件提到Binance。我們的解決方案會錯誤地將新聞標記為兩個實體，並將Binance標記為風險，即使它不是文字中的關鍵主題。然而，這並不是一個主要的限制，因為我們只使用新聞文章的標題和摘錄來進行風險評分，這通常只包含文章的關鍵資訊。

結語

我們的專案讓監管機構可以輕鬆挖掘開源資訊，更好地識別加密貨幣領域發生的風險事件。我們提供了一個分析文章並預測風險分數的語言模型，以及根據實體和來源資訊彙總這些分數的方法。這些方法都被編織成一個可以端到端執行的自動化流水線。將該專案整合到Cylynx平臺中，將對其現有功能進行補充，併為監管機構識別高風險加密貨幣實體提供巨大的幫助。

Pengtai Xu 作者

Sherrie 翻譯

Sherrie 編輯

最新評論

∧ 整治雙十一購物亂象，國家再次出手！該跟這些套路說再見了

∨ 谷歌三駕馬車之MapReduce

熱門排行

劇多

硬核丨如何利用機器學習識別加密專案風險？