全文共1727字,預計學習時長5分鐘
數字化將DataOps這一概念引入人們生活的同時,大資料正引入一種新的正規化——MLOps。鑑於DevOps和DataOps在實踐中越來越多的運用,該項業務需要機器學習模型使用過程中的所有參與者一直保持合作與互動,包括業務人員、工程師、大資料開發人員(資料科學家和機器學習專家)。
MLOps還是一個比較新的概念,但人們對它的需求卻在與日俱增。2018年左右,在谷歌舉辦的一場演講之後,業內專業人士首次公開談及工業執行(生產)中機器學習生命週期整合化管理的必要性。
將機器學習模型引入實際業務這一實踐,並不侷限於資料準備、開發、神經網路或其他機器學習演算法的訓練方面。從驗證資料集,再到可靠的大資料生產環境下測試和部署資料集,產品解決方案的質量受到諸多因素的影響。
在機器學習解決方案的開發、測試、部署和支援過程中,多學科專家在互動中會遇到許多組織難題和技術障礙,這不僅延長了產品建立的時間,還降低了產品帶給該項業務的實際價值。
為了消除這些障礙,MLOps這一概念應運而生。與DevOps和DataOps類似,MLOps旨在提高自動化程度和工業機器學習解決方案的質量,同時兼顧監管需求和業務利益。
因此,MLOps是結合系統開發和運營支援(包括整合、測試、釋出、部署、基礎設施管理等操作),以實現機器學習系統生命週期複合化和自動化管理的文化理念和應用例項。
可以說,MLOps藉助敏捷的方法和技術工具擴充套件了CRISP-DM方法論(CRISP-DM跨行業資料探勘標準流程),從而可以自動執行包括資料、機器學習模型、程式碼和環境在內的操作。
這些工具中包括了Cloudera公司的資料科學工作臺——ClouderaData Science Workbench,將MLOps付諸實踐有助於資料科學家在CRISP-DM經典階段規避常見陷阱和問題。
MLOps帶給業務和資料科學的十大好處
實施MLOps帶來的所有好處中,最為突出的是機器學習工業部署細節中的敏捷方法:
· 透過可靠且有效的機器學習生命週期管理,減少時間,從而得到高質量結果。
· 持續開發(CD)、持續整合(CI)、持續訓練(CT)方法和工具保障了工作流程和模型的可重複性。
· 隨時隨地輕鬆部署高精度機器學習模型。
· 整合管理系統可連續監測機器學習資源。
· 消除組織障礙,匯聚多學科機器學習專家的經驗。
因此,使用MLOps可以最佳化以下機器學習操作:
· 統一機器學習模型和關聯軟體產品的釋出週期。
· 自動測試機器學習元件,如資料驗證、測試機器學習模型本身、及其整合到產品解決方案的過程。
· 在機器學習專案中踐行敏捷原則。
· 在CI、CD、CT系統中支援機器學習模型和資料集。
· 使用機器學習模型減輕技術債。
值得注意的是,MLOps的實踐應該與語言、框架、平臺和基礎設施無關。從技術角度來看,MLOps系統的總體架構應包括收集和聚合大資料平臺,為機器學習建模分析和準備資料的應用程式,執行計算和分析的工具,以及自動移動機器學習模型及其生命週期中關聯資料、軟體產品的工具。
如此以來,資料科學家、資料工程師、機器學習專家、大資料解決方案的架構師和開發人員、以及使用統一高效管道的DevOps工程師的工作任務有望實現部分或完全自動化。
我們一起分享AI學習與發展的乾貨