首頁>科技>

> Photo by John Fowler on Unsplash

上週,年度AWS技術大會re:Invent 2020正式拉開了帷幕。通常情況下,會在拉斯維加斯舉行為期一週的線下會議,而持續進行的COVID19大流行使會議變成了虛擬的三週活動。如果您在過去的幾年裡一直關注re:Invent,那麼在re:Invent主題演講期間,機器學習始終佔據著中心位置。如此之多,以至於它已經蓋過了其他版本,AWS決定,並且正確的是,機器學習理應擁有自己的主題演講。

你為什麼要在乎呢?儘管大多數機器學習實驗可能是在本地開始的,但是一旦開始以生產規模進行機器學習,您最終將最終落入雲中。此外,當您檢視這些生產工作負載時,它們絕大多數由TensorFlow,PyTorch和MXNet中的演算法組成。最後,超過90%的基於TensorFlow和PyTorch的雲機器學習都在AWS上執行。

讓我們從硬體開始。

AWS Trainium由AWS定製設計的機器學習晶片,專門用於在雲中訓練機器學習模型。這是繼AWS Infrentia之後來自AWS的第二塊晶片,併為開發人員共享相同的AWS Neuron SDK。為什麼重要呢?在雲上進行深度學習培訓時,具有成本效益和高效能。

由Habana Gaudi加速器驅動的EC2例項由Habana Gaudi加速器驅動的EC2例項。也可以透過Amazon SageMaker,AWS ECS和AWS EKS使用。

為什麼重要呢?與當前基於GPU的EC2例項相比,其價效比高達40%。反過來,這可以為深度學習訓練提供具有成本效益的擴充套件。

Amazon SageMaker是來自AWS的完全託管的機器學習服務,使您能夠構建,訓練和部署機器學習。它也是當今雲上最強大的機器學習服務。以下是此re:Invent的一些SageMaker版本。

SageMaker Data Wrangler使您只需單擊幾下即可處理,轉換和視覺化機器學習所需的資料。為什麼重要呢?資料準備不可區分的任務佔用了機器學習的大部分時間。Data Wrangler使您可以透過300多種內建轉換輕鬆清理和預處理資料,同時還可以瞭解幕後發生的情況。您還可以在PySpark,SQL和Pandas中編寫可重用的自定義轉換。

SageMaker Feature Store專用的儲存庫使您可以儲存,更新,檢索和共享功能。為什麼重要呢?提供簡單的方法來重用和共享豐富的功能,並避免團隊內部重複工作。您的團隊可以簽入和簽出與程式碼儲存庫相似的功能。離線和線上選項使您可以在需要低延遲的情況下輕鬆地在訓練和推理期間始終保持一致性。

SageMaker Pipelines為機器學習工作負載而構建的CI / CD服務。

> Inspect your machine learning pipelines. Image by author

為什麼重要呢?您過去可以結合使用AWS Lambda,Step Functions和CodeCommit來將管道縫合在一起。使用管道,您可以直接從SageMaker studio建立工作流程。管道具有內建模板,使您可以快速入門,並且還可以使用雲形成來建立自己的模板。您可以定義自定義階段,並建立自動和手動批准。提示:在嘗試管道之前,您需要或管理員需要在SageMaker studio中啟用專案模板。

SageMaker Profiler For Debugger使您可以在單個引數訓練期間避免瓶頸並最大程度地利用資源。Profiler是Sagemaker偵錯程式的一項附加功能,您可以使用幾個附加引數啟用它,而無需進行任何重大的程式碼更改。為什麼重要呢?過去,您必須編寫自定義指令碼或結合CloudWatch的儀表板來監視培訓進行中的資源使用情況。透過Profiler,可以輕鬆檢測出資源利用不足或過度利用並採取補救措施。分析結果可以在SageMaker Studio中視覺化,也可以透過SageMaker偵錯程式API獲得。

SageMaker Clarify一項新功能,使您能夠檢測偏差並解釋模型行為。這些報告可直接從SageMaker Studio獲得,也可以從儲存它們的S3儲存桶中獲取。

> Bias report in Clarify. Image by author

為什麼重要呢?您的資料集和模型中的偏差將導致預測不佳。使用Clarify,您既可以檢測預訓練偏差,也可以檢測資料集中已經存在的偏差和訓練模型中的偏差。除了偏見之外,澄清還解釋了模型為什麼要做出決策的原因。Clarify使用SHAP來解釋每個輸入功能對最終決定的貢獻。

SageMaker分散式培訓雖然SageMaker中始終存在分散式培訓;但是,新版本通過幾行程式碼即可實現資料並行和模型並行。為什麼重要呢?Amazon SageMaker上的新的分散式培訓使培訓大型,複雜的深度學習模型成為可能,其速度比當前方法快兩倍。使用Amazon SageMaker的Model Parallelism引擎進行的分散式訓練可以透過自動剖析並確定最佳的模型分割方法,在多個GPU上有效地分割數十億個引數的大型複雜模型。

SageMaker Edge Manager允許開發人員最佳化,保護,監視和維護部署在邊緣裝置群上的機器學習模型。為什麼重要呢?使您能夠在一組邊緣裝置上管理模型,並連續監視模型組以檢測劣化。與手動調整模型相比,它應用了特定的最佳化功能,可使效能提高30%。

SageMaker Jumpstart為最常見的用例提供了一套解決方案,例如欺詐檢測,預測性維護和需求預測,只需單擊幾下即可輕鬆部署。

> SageMaker JumpStart solutions. Image by author

為什麼重要呢?機器學習的新手開發人員很難上手。即使是經驗豐富的從業人員,有時也難以滿足生產需求。使用JumpStart,您可以快速找到特定於您的機器學習用例的相關資訊。

機器學習資料庫?除了AWS機器學習堆疊中的新版本之外,re:Invent 2020還使ML擴充套件到了其他AWS服務中,例如Redshift ML和Neptune ML。這使具有有限機器學習技能的資料庫開發人員和分析人員以及經驗豐富的從業人員能夠直接使用SQL程式碼建立,訓練和執行機器學習模型。為什麼重要呢?開發人員可以將RedShift中資料的推斷結果直接插入其BI報告中。使用Neptune ML,可以實現常見的用例,例如構建知識圖和推薦系統。

Amazon Q for QuickSight由機器學習提供支援的功能使用自然語言處理來回答您的業務問題。為什麼重要呢?只需單擊幾下,即可在QuickSight儀表板中構建自然語言查詢功能。簡而言之,用簡單的語言提問並立即獲得答案。

Amazon Lookout for Metrics是一項AI服務,它使用機器學習來自動檢測和診斷業務和運營時間序列資料中的異常。您可以連線到多個源(如S3,RDS)和第三方SAAS提供程式(如Salesforce)。為什麼重要呢?使您幾乎可以在任何時間序列資料中檢測異常。除了檢測之外,它還有助於確定異常的根本原因。您只需單擊幾下即可透過控制檯使用它,或透過API以程式設計方式將其與其他應用程式整合。

在今年的re:Invent版本中,針對工業服務的機器學習受到了特別關注。

Amazon Monitron一種機器學習解決方案,用於檢測異常行為並實現工業機械的預防性維護。Monitron具有兩個主要元件:Monitron感測器,該感測器連線到機器上以測量振動和溫度。Monitron閘道器從感測器接收輸入,並將其傳送到AWS雲以處理和應用機器學習。最後一個元件是一個移動應用程式,當檢測到異常行為時可以接收警報。為什麼重要呢?一種用於工業機械異常檢測的端到端解決方案,包括所有硬體,軟體和基礎架構。這樣一來,幾天之內即可輕鬆部署交鑰匙解決方案。

尋找裝置的工作原理類似於Monitron,但是您可以使用自己的感測器和硬體。

Lookout for Vision擴充套件了異常檢測功能,可以透過內建的複雜度來檢測一組影象中的異常,以處理相機角度照明的變化。

Panorama Appliance如果您現有智慧相機,則可以使用Panorama裝置直接處理提要並將其傳送到AWS雲以進行進一步分析。該裝置隨附裝置中的預構建模型,這些模型針對不同的行業領域進行了最佳化。

這些怎麼回事?利用您在工業硬體上的現有投資,並透過機器學習功能快速擴充套件它們。

DevOps Guru另一項AI服務,使您能夠檢測出偏離正常操作模式的行為,因此您可以在影響客戶的很長時間之前就識別出問題。為什麼重要呢?部署基於機器學習的解決方案,該解決方案可以在沒有手動設定或不需要機器學習專業知識的情況下自動預測DevOps問題。

Amazon HealthLake一項服務,使您可以使用專門的機器學習模型來轉換資料以識別趨勢並做出預測。為什麼重要呢?符合HIPPA資格的服務可以按時間順序組織資料,可以用於在SageMaker中構建機器學習模型。該服務還允許使用標準檔案格式與其他提供商共享資料。

那是很多機器學習和人工智慧的釋出。AWS re:Invent仍在進行中,可以免費註冊並觀看其中的任何一次或任何其他技術深入探討。

構建愉快!

37
最新評論
  • 整治雙十一購物亂象,國家再次出手!該跟這些套路說再見了
  • 社群團購,誤國害民