回覆列表
  • 1 # 科技行者

    想要搭建一個AI平臺,需要什麼樣的基礎架構?資料架構又該如何選擇?

    想要搭建一個AI平臺,在哪裡搭建?這是企業首先需要考慮的問題。是署在本地,還是部署在雲端?這需要根據自身業務特點來選擇,不過,無論你的AI平臺在哪個地方,其基本流程都可分為四個步驟:

    1、把原始資料從各種資料來源匯入到資料湖,進行資料拆分、清洗等資料預處理工作;

    2、把資料交給AI訓練叢集透過機器學習神經演算法框架進行訓練;

    3、訓練完成後就可以把得到的最優引數設定模型,進行人工智慧應用的部署;

    4、最後把機器學習的資料進行歸檔。

    有人說人工智慧應用構建最重要的是演算法框架。這種說法並不準確,框架或平臺儘管重要,但也可能因行業發展流行或衰退,所以,AI平臺的構建並不能只懂演算法,因為演算法實現不等於問題解決,問題解決不等於現場問題解決。

    追求高可用、高效能、靈活易用的基礎架構才是永恆不變的。Google就是依靠強大的基礎架構能力讓AI研究領先於業界,因為基礎架構知識是AI工程師進行高效團隊協作的共同語言。

    而儲存架構在AI平臺基礎架構中也起到了至關重要的作用。如果把機器學習訓練叢集中的GPU比作飛馳的高鐵列車,那麼一個優秀的AI平臺數據管道就像高鐵網路中的鐵軌。當你考慮如何從你的AI部署中獲取最佳結果時,資料管道或許是最重要的考量點。

    我們知道企業級儲存主要有三種模式:基於資料塊的SAN儲存,基於檔案的NAS儲存和物件儲存。首先SAN儲存因為自身無法實現跨不同主機共享資料,不適合直接用於AI平臺,可以排除;其次物件儲存達不到AI平臺數據管道所需的高效能也可以排除,所以檔案儲存是一個不錯的選擇,但有些因素必須考慮:

    1、選擇何種檔案系統

    • 橫向擴充套件架構例如Lustre 或者 GPFS;

    • HDFS,通用的大資料檔案系統;

    • NFS,最廣泛部署的共享檔案系統。

    • 日誌和感測器資料;

    • 資料庫資料:包括關係型資料庫和非關係型資料庫;

    • 郵件日誌;

    • 個人主目錄;

    • 其他資料型別。

    3、同時滿足隨機小IO和順序大IO的效能

    • 檔案系統必須能夠在兩者之間平衡效能。

    4、最大效能和資料移動的能力:

    • 檔案系統的最大效能;

    • 能夠高效的移動資料。

    5、資料生命週期的自動化

    • 自動分層智慧決定不同資料集的儲存位置,比如高效能層,歸檔層等;

    • 同時滿足資料分類和過濾過程的實時效能;

    6、支援最新的儲存和記憶體介質如NVMe和SCM等,從而在效能和延遲上獲得數量級的提升

    • 你的AI平臺選擇的檔案系統和資料架構至少應該滿足以上條件,這對AI平臺的長久發展非常重要。

    AI資料集能夠輕易地增長到很大規模,為適應這種資料大規模增長,需要一個可以橫向擴充套件的單一名稱空間檔案系統,並且能夠隨著客戶端訓練節點的擴充套件而線性提升儲存效能。

    客戶端訪問這個單一名稱空間有不同的方式,不同方式意味著不同的效能要求,一種訓練模型為非同步訓練,資料集被靜態地分佈於訓練叢集節點,每次訓練只有一個節點訪問名稱空間中的一部分特定資料。

    另一種訓練模型為同步進行,資料集相互關聯緊耦合在一起,需要被訓練叢集中所有節點同時訪問。這種情形明顯需要更高的檔案系統性能。

    還有一種多層神經網路訓練模型,每個訓練節點有序地從檔案系統中讀出資料集進行訓練,這樣就導致整個資料集不斷地被反覆讀取,一個節點讀一次,不斷地換手。

    除了上述幾點外,在選擇AI平臺的檔案系統儲存時還有一些其他因素也需要考慮,包括易於管理、擴充套件簡單、支援多租戶和儲存QoS、支援客戶端快取、產品技術持續更新能力。

    戴爾易安信的AI解決方案就滿足上述所有要求,包括Lustre橫向擴充套件高效能儲存解決方案,原生支援HDFS的ISilon橫向擴充套件NAS 解決方案,自動分層的橫向擴充套件Fluid NFS解決方案。

    戴爾易安信Lustre橫向擴充套件高效能儲存架構戴爾易安信橫向擴充套件高效能檔案系統

    在這些可選項中,每一種方案都在國內的AI研究機構和相關企業已有落地的案例參考。正在籌劃搭建自己的AI平臺的企業機構,可以諮詢戴爾易安信專業的人工智慧解決方案專家瞭解各方案的優劣和特點,從而根據自己的建設需要,從長遠考慮選擇最適合自己的AI平臺。

  • 2 # 水母星人

    ❶ 把原始資料從各種資料來源匯入到資料湖,進行資料拆分、清洗等資料預處理工作;

    ❷ 把資料交給AI訓練叢集透過機器學習神經演算法框架進行訓練;

    ❸ 訓練完成後就可以把得到的最優引數設定模型,進行人工智慧應用的部署;

    ❹ 最後把機器學習的資料進行歸檔。

  • 中秋節和大豐收的關聯?
  • 如何看待麥考MRI結果無結構性損傷,至少缺陣3場比賽?