首頁>科技>

12月24日晚,智領雲第五次社群圖文技術直播如約而至。本次直播由智領云云平臺部門經理Jason為大家分享BDOS線上大資料/人工智慧競賽及實訓解決方案,主要內容包括行業現狀和痛點,BDOS線上大資料/人工智慧競賽及實訓解決方案的具體介紹,以及對成功的行業落地案例的分享。

一、行業現狀與痛點

當前的大資料技術已經趨於成熟,在資料儲存、資料分析、資料呈現和資料應用等方面,已經形成了一整套技術框架,相關的技術生態也在不斷的完善當中。但不可否認的是,企業以及教育行業在利用大資料時,仍面臨著以下諸多的困難。

1、高成本、長週期:從零搭建大資料/人工智慧體系用於培訓、比賽或者企業內部實驗,需要經過選型、立項、管理等複雜過程,效果難以立竿見影;

2、大資料專業團隊難尋:大資料及人工智慧元件多、依賴複雜、配置繁複,在企業/機構開展核心業務之前,需要先花大力氣組建大資料的專業團隊,難免造成商業重心偏移;

3、系統僵化、難維護:傳統企業自建大資料平臺無法智慧進行叢集動態運維和資源演算法分配的管理,對穩定性、體驗性、按需擴充套件性要求高的實訓、比賽、實驗等場景難以對應支援;

4、模式單一,難通用:傳統業務模式依賴手動單一元件的安裝和使用,不能透過即開即用的方式任意組合大資料元件和資料科學工具來進行課程、賽制的研發與迭代,由此限制了大資料整體認知價值的提升。

二、BDOS線上大資料/人工智慧競賽及實訓解決方案,可以解決哪些問題?

針對以上痛點,BDOS線上大資料/人工智慧競賽及實訓解決方案可以幫助教育行業以及企業擺脫種種困難。

首先,對於科研機構來說,該解決方案能為科研機構提供易用、環境穩定、持續升級的線上機器學習及人工智慧實驗教育環境和完整服務,保證研究成果易分析,實驗資料全防護。

其次,對於高等教育及大專院校,該解決方案能為高校、大專院校提供即開即用的大資料人工智慧課程的實訓體系,模擬競賽環境。

最後,對於企業來說,可以為企業內部員工提供大資料人工智慧學習與培訓的環境。

三、BDOS線上大資料/人工智慧競賽及實訓解決方案介紹

該解決方案是一套企業、高校和科研教學業務的大資料/人工智慧整體認知提升及比賽解決方案。該方案幫助客戶快速搭建多租戶大資料及人工智慧使用環境,提供協同式線上資料科學研發、實驗及管理的能力,包括全面的大資料/人工智慧實戰課程,競賽管理,研發體系,靈活整合各種新型工具,提供線上程式設計、研發、整合環境,滿足企業、高校和科研教學業務需求。

四、方案構成

基於以上行業現狀,透過BDOS形成一套線上大資料/人工智慧競賽及實訓解決方案,以解決和滿足目前行業存在的痛點和需求。解決方案的架構圖如下:

自下而上來看,這套解決方案包括以下層面:

IT基礎設施層(IaaS):BDOS支援搭載在客戶的公有云、私有云或者混合雲環境上。應用雲平臺(PaaS):支援對大資料平臺及雲原生應用的統一排程,統一運維,將資源的分配粒度從主機級降到應用級,不同機構和不同應用在資源隔離的保證下安全共享資料以及資源池,增加系統管理的靈活性,提高資源使用率。容器化大資料平臺:提供大資料系統(Hadoop、Hive、Kafka、Spark)及應用敏捷釋出和按需彈性叢集擴充套件、標準化的大資料元件及應用(ETL、機器學習、人工智慧)的開發/測試/生產環境、高資源利用率和多租戶資料隔離能力。資料整合開發平臺:提供資料整合、資料倉庫建設、資料開發、資料服務、應用排程和全域性多租戶管理能力。協作式資料科學分析及實驗平臺:提供資料科學分析工具箱、資料接入、模型管理、演算法庫管理、協作開發、競賽、實驗專案管理能力。大資料及人工智慧實訓平臺:提供各種大資料、人工智慧和機器學習實訓課程環境及內容管理能力。業務層面:基於實驗和實訓平臺,業務應用包括課題規劃、教學管理、課程管理、課件管理和成績評估等。

該解決方案提供以上這些開箱即用的平臺體系,我們再回過頭去看前面列舉的行業痛點和需求,都可以得到有效地解決和滿足。

五、具有代表性的成功案例分享

1、中軟協人工智慧應用挑戰賽

背景介紹

為了推動軟體與智慧應用產業的發展,促進 IT 類專業技術人才培養,進一步落實中國軟體行業校園招聘與實習公共服務平臺精準求職、精準招聘的目標,中國軟體行業協會智慧應用分會發起了2020人工智慧應用挑戰賽,旨在發揮各自的資源優勢、渠道優勢、經驗優勢,將高校招錄研究生和企業招聘工程師的行業標準融入大賽,共同推動高校人才培養與就業,推動青少年計算機基礎學習,培養青少年對計算機學科的興趣,持續為軟體行業輸送具有創新能力和實踐能力的 IT 人才,適應人工智慧產業的快速發展,對接經濟社會人才需求,促進學生在人工智慧研究與設計、開發與應用方面的創新能力培養,促進相關專業的應用型人才培養與課程體系變革,促進創新教育範疇的產教融合、產學協同育人。

方案設計

挑戰賽的基本資訊如下:

比賽分為兩個階段,初賽階段併發使用者數最大約2000人,決賽階段併發使用者數最大約200人初賽階段每個使用者需提供2核/8G記憶體的CPU算力資源,決賽階段每個使用者需提供8核/32G記憶體/1GPU的算力資源比賽持續15天,使用者的日活躍時間不固定,期間任意時間選手均可登入平臺進行演算法開發和提交執行比賽需提供Python、TensorFlow、Spark、R等演算法開發的環境比賽平臺需在公有云環境搭建,面向公網開放

方案落地的難點有:

1、公有云成本控制:

如果按照全量使用者來購買資源,成本過高(初賽階段資源共需63臺64C 256G機器 , 一週近15萬;決賽階段資源共需200臺8C 32G GPU+25臺64C 256G機器,一週近30萬)考慮使用者併發量週期性波動,按照一定比例來購買包月機器和按量付費機器(如何快速買入和釋放)

2、運維人力有限:

如何保證叢集執行穩定如何支撐叢集彈性伸縮(手動or自動)初賽和決賽之間如何快速切換環境

方案落地

最終,我們透過使用BDOS人工智慧競賽及實訓解決方案案在公有云環境搭建了本次挑戰賽的賽事平臺並保證了賽事的成功舉辦,以下是一些資料統計:

平臺管理了90+公有云節點,運行了600+應用Pods,運行了1000+容器例項,建立了3000+的持久化儲存卷,比賽期間平臺穩定執行決賽階段叢集資源利用率達到70%+,叢集算力利用率高共觸發了400+的叢集彈性伸縮活動,基礎設施彈性伸縮能力強,彈性成本佔比高整個比賽專案只用1位雲工程師運維支撐,運維成本低

從這個案例中,我們看到了BDOS人工智慧競賽及實訓解決方案的穩定健壯,彈性伸縮,靈活擴充套件和按需使用等優勢。

2、北京醫保局醫保資料競賽

背景介紹

北京醫保局希望透過舉辦本次競賽,鼓勵具備人工智慧、大資料分析與挖掘等“高精尖”科技的高新技術企業、高校、研究機構等參與醫療保障管理服務,將成熟的創新科技技術轉化為實踐;加強政商戰略合作,優選一批符合醫保創新發展需要的新技術納入醫療保障管理服務場景應用示範,不斷完善該市醫療保障管理服務創新能力體系;促進“高精尖”產業發展,推進創新技術轉化為實踐產品並落地實施,形成線上線下融合、相互促進發展、規範安全高效的醫保與高科技產業共同發展格局。

方案設計

資料競賽的基本資訊如下:

比賽有12個參賽隊伍,分為賽題A和賽題B,兩道賽題得分綜合計算最終成績賽題A資料集量級約為10GB,每個使用者需分配16核/128GB記憶體算力;賽題B資料集量級約為600GB(壓縮前),每個使用者需分配48核/256GB記憶體算力賽題A、B均需支援Spark計算引擎,賽題A採用Spark本地運算提交模式,賽題B採用Spark叢集運算提交模式

方案落地的難點有兩方面:

1、實施環境:

客戶私有云環境且封閉網路,所有系統需要從零搭建,隔離環境下映象構建(選手現場提出了安裝三方演算法庫的需求)困難虛擬化平臺由三方提供,大資料環境搭建後的效能保證是不確定的

2、資料處理和資源公平性:

由於賽題B的資料集是上百GB級別,本地算力計算無法滿足要求(沒法提供256GB記憶體的單機且不現實),必須提供叢集模式的Spark執行環境多個參賽團隊共用一個大資料叢集,需要確保計算資源公平性和資料安全,避免單個團隊無限制使用叢集算力而其他團隊無法拿到資源的情況資料需要脫敏和抽樣,但客戶側沒法獨立完成,只能匯入到大資料系統中後再做資料處理

方案落地

最終,我們的BDOS線上大資料/人工智慧競賽及實訓解決方案在這個專案中成功落地,從零搭建到比賽開始,該專案實施週期約3周左右,實施和運維人力投入約2人。

其中,BDOS容器化大資料平臺提供了開箱即用的Hadoop、Hive和Spark的主流大資料元件,透過BDOS資料整合開發平臺,我們的實施人員配合客戶側能夠高效地完成資料採集、壓縮、脫敏和抽樣,利用BDOS的資料安全和多租戶特性,為每個比賽團隊分配了指定的計算資源和獨立的資料儲存空間,保證了叢集模式計算的資源公平性和資料安全性;

各參賽團隊的選手透過上層的協作式資料科學分析及實驗平臺可以快速獲取處理後的資料集,可以很方便地進行線上編寫、除錯和提交Spark程式。

五、BDOS線上大資料/人工智慧競賽及實訓解決方案的優勢

1、完整的產品體系:可以提供計算機基礎、資料庫、儲存、大資料、人工智慧、機器學習以及大資料安全等任意IT/大資料/人工智慧環境,並提供持續不斷地跟進技術革新、線上調整和環境升級設定;

2、大資料平臺能力:提供了大資料收集、儲存、分析等資料服務,以及視覺化的一站式平臺,幫助客戶掌握大資料核心能力,利用大資料分析不斷迭代自身商業模式;

3、按需建設及使用:快速按需實施,叢集彈性擴充套件以應對突發的實訓、科研及比賽計算場景;同時在需求淡季能自動降容來確保資源使用不浪費;

4、優秀的效能:夯實的系統基礎,提供高可用且效能優秀的平臺;能夠應對隨時增長的應用容量,並且保證高效的資源使用率,完善的多使用者管理,細粒度的資源共享,充分利用硬體資源;

5、協同及靈活的橫向擴充套件:資料科學家協同平臺,能輕鬆擴充套件至TensorFlow、Pytorch、Zeppelin的學習和實驗平臺;同時對新元件/系統的支援也非常的輕鬆,Presto、Cassandra、MongDB等都能夠輕易在原有的解決方案上進行擴充套件。

6、安全穩定:提供全程操作審計和監控;使用者安全組配置;統一授權/驗證,滿足企業核心資料的安全訴求,避免資料資產洩露,保障安全與可用性。

六、總結

9
最新評論
  • 整治雙十一購物亂象,國家再次出手!該跟這些套路說再見了
  • 這個17歲的駭客天才,破解了第一代iPhone