首頁>技術>

譯者:布加迪

目前,沒有用於構建和管理機器學習(ML)應用程序的標準實踐。機器學習項目組織得不好,缺乏可重複性,而且從長遠來看容易徹底失敗。因此,我們需要一套流程來幫助自己在整個機器學習生命週期中保持質量、可持續性、穩健性和成本管理。

圖1. 機器學習開發生命週期流程

使用質量保證方法開發機器學習應用程序的跨行業標準流程(CRISP-ML(Q))是CRISP-DM的升級版,以確保機器學習產品的質量。

CRISP-ML(Q)有六個單獨的階段:

1. 業務和數據理解

2. 數據準備

3. 模型工程

4. 模型評估

5. 模型部署

6. 監控和維護

這些階段需要不斷迭代和探索,以構建更好的解決方案。即使框架中有順序之分,後一階段的輸出可以決定我們要不要重新檢查前一階段。

圖2. 每個階段的質量保證

質量保證方法被引入到框架的每個階段。這套方法有要求和約束,比如性能指標、數據質量要求和穩健性。它有助於降低影響機器學習應用程序成功的風險。它可以通過持續監控和維護整個系統來實現。

比如說:在電子商務企業,數據和概念漂移會導致模型退化;如果我們沒有部署系統來監控這些變化,公司就會蒙受損失,即失去客戶。

業務和數據理解

開發流程一開始,我們需要確定項目範圍、成功標準和ML應用程序的可行性。之後,我們開始數據收集和質量驗證過程。這個過程漫長而又充滿挑戰。

範圍:我們希望通過使用機器學習流程實現的目標。是留住客戶,還是通過自動化降低運營成本?

成功標準:我們必須定義清晰和可衡量的業務、機器學習(統計指標)和經濟(KPI)成功指標。

可行性:我們需要確保數據可用性、機器學習應用程序的適用性、法律約束、穩健性、可擴展性、可解釋性和資源需求。

數據收集:通過收集數據,對其進行版本控制以實現可重複性,並確保源源不斷的真實數據和生成數據。

數據質量驗證:通過維護數據描述、要求和驗證來確保質量。

為了確保質量和可重複性,我們需要記錄數據的統計屬性和數據生成過程。

數據準備

第二階段很簡單。我們將為建模階段準備數據。這包括數據選擇、數據清洗、特徵工程、數據增強和規範化。

1. 我們從特徵選擇、數據選擇以及通過過採樣或欠採樣來處理不平衡類入手。

2. 然後,專注於減少噪音和處理缺失值。出於質量保證的目的,我們將添加數據單元測試,以減少錯誤值。

3. 視模型而定,我們執行特徵工程和數據增強,比如獨熱編碼和聚類。

4. 規範化和擴展數據。這可降低特徵有偏差的風險。

為了確保可重複性,我們創建了數據建模、轉換和特徵工程管道。

模型工程

業務和數據理解階段的約束和要求將決定建模階段。我們需要了解業務問題以及我們將如何開發機器學習模型來解決這些問題。我們將專注於模型選擇、優化和訓練,將確保模型性能指標、穩健性、可擴展性、可解釋性,並優化存儲和計算資源。

1. 模型架構和類似業務問題方面的研究。

2. 定義模型性能指標。

3. 模型選擇。

4. 通過整合專家來了解領域知識。

5. 模型訓練。

6. 模型壓縮和集成。

為確保質量和可重複性,我們將存儲模型元數據並進行版本控制,比如模型架構、訓練和驗證數據、超參數以及環境描述。

最後,我們將跟蹤ML試驗,並創建ML管道,以創建可重複的訓練流程。

模型評估

這是我們測試並確保模型已準備好部署的階段。

我們將在測試數據集上測試模型性能。

通過提供隨機或虛假數據,評估模型的穩健性。

增強模型的可解釋性,以滿足監管部門要求。

自動或請教領域專家,將結果與初始成功指標進行比較。

為了質量保證,評估階段的每一步都被記錄下來。

模型部署

模型部署是我們將機器學習模型集成到現有系統中的階段。該模型可以部署在服務器、瀏覽器、軟件和邊緣設備上。來自模型的預測可用於BI儀表板、API、Web應用程序和插件。

模型部署流程:

定義硬件推理。

生產環境中的模型評估。

確保用戶接受和可用性。

提供後備方案,最大程度地減少損失。

部署策略。

監控和維護

生產環境中的模型需要持續監控和維護。我們將監控模型時效性、硬件性能和軟件性能。

持續監控是流程的第一部分;如果性能降到閾值以下,自動做出決定,針對新數據重新訓練模型。此外,維護部分不僅限於模型的重新訓練。它需要決策機制,獲取新數據、更新軟硬件以及根據業務用例改進ML流程。

簡而言之,就是持續集成、訓練和部署ML模型。

結論

訓練和驗證模型是ML應用程序的一小部分。將最初的想法變成現實需要幾個過程。我們在本文中介紹了CRISP-ML(Q) 以及它如何側重風險評估和質量保證。

我們先定義業務目標、收集和清理數據、構建模型、拿測試數據集驗證模型,然後將其部署到生產環境中。

該框架的關鍵組件是持續監控和維護。我們將監控數據和軟硬件指標,以確定是重新訓練模型還是升級系統。

5
最新評論
  • BSA-TRITC(10mg/ml) TRITC-BSA 牛血清白蛋白改性標記羅丹明
  • 營養豐富的百香果,好處可真不少,怎樣才能種出好吃的百香果呢?