一、網格基礎
問題的引出,兩個方面:
1、在90年代末,計算面臨的問題越來越複雜,需要的計算資源越來越多,當時PC配置還比較低。
2、網上大量的閒置資源。
借鑑電力網的思想,希望最終給使用者提供的是與地理位置無關,與具體計算設施無關的應用計算能力。
2、電力網與網格組成對比
電網的構成
我們現在使用的電,包括風電、水電、火電、核電,都匯聚到電網裡面,然後分散到各地給使用者使用。
電網構成示意圖
網格的構成
網格的組成,包括MPP大規模並行處理,PVP並行向量處理,資料,儀器,輸入到網格里面,分散到各個地方進行計算,最終進行一個輸出。
網格的構成
3、什麼是網格計算
分散式計算的一種,用網際網路上的計算機的 CPU 的閒置處理能力來解決大型計算問題的一種計算模式。這種計算模式就是利用網際網路把分散在不同地理位置的電腦組織成一個 "虛擬的超級計算機",其中每一臺參與計算的計算機就是一個"節點",而整個計算是由成千上萬個 "節點" 組成的一個 "網格" ,這種計算方式稱為網格計算。4、網格的應用領域
科學領域
分散式超級計算高吞吐率計算資料密集型計算社會經濟生活領域
基於廣泛資訊共享的人與人互動更廣泛的資源貿易看個例子:SETI@home專案
該專案主要目的:利用聯網PC的閒置能力分析世界上最大的射電望遠鏡獲得資料,幫助科學家探索外星生物,其計算模式的實質就是網格計算。
二、網格的體系結構
1、網格體系結構
即如何構建網格的技術,描述網格各組成部分的關係以及他們整合的方式
2、網格體系結構的分類
五層沙漏結構
由Foster等最早提出,是一個最先出現的應用和影響最廣泛的結構,是一種以協議為中心的結構,十分強調服務與API和SDK的重要性。基本思想包括:
共享互操作協議服務API/SDK五層分類五層結構及其與TCP/IP的比較
每一層存在的協議、服務和介面
OGSA體系結構
開放網格服務結構,是目前最新的一種網格體系結構。其三大基本思想:
一切都是服務統一的Web服務架構突破科技應用領域網格服務:基於Web Service的虛擬化資源
服務化各類資源,多個邏輯例項對映相同的物理資源位置透明、多協議繫結和服務的多種實現組成高階服務,不關心各類服務如何構成OGSA服務
Service factory 先發起一個Service,流程如下圖所示OGSA定義服務的標準介面三、網格應用
1、分散式超級計算
網格最初的設計目標就是為了應用分散式超級計算,分散式超級計算是將分佈在不同地點的超級計算機用高速網路連線起來,並用網格中介軟體軟體 "粘合起來" ,形成比單臺超級計算機強大得多的計算平臺。
分散式超級計算核心技術
適應性演算法
主要解決網路的頻寬和延遲問題不同的應用和適應性演算法的相關性極大資源管理排程策略
傳統的單機排程最佳化的網格排程管理 - 網路協議和應用程式容錯
檢查點(單機、全域性)心跳策略分散式超級計算 - 模擬的黑洞
2、分散式儀器系統(DIS)
DIS指以網格管理分佈在各地的貴重儀器系統,提供遠端訪問和控制儀器的手段。網格對DIS的影響有:
簡化對儀器的管理支援儀器的動態變化資源動態排程和預留服務資料管理和處理能力的提高提供動態視覺化和分析DIS的核心技術
基於網路的海量儲存系統:HPSS、DPSS分散式監控:遠端網路代理,協調管理,分散式監控基於策略的訪問控制:數字授權文件,系統資源訪問控制部件,策略控制引擎腦腫瘤會診
3、資料密集型計算(DIC)
DIC是網格中比較廣泛的應用,側重於資料的存貯、傳輸、處理。
兩大研究機構:歐洲原子能研究機構CERN,美國NPACI關鍵處理技術:Data Grid(把海量資料分散到全球的計算機上進行處理,並由全球的物理學家共同處理分析,在這個背景下DataGrid應運而生)DataGrid成為實現"大科學"目標的基礎平臺
4、遠端沉浸
一種特殊的網路虛擬化現實環境,建立在高速網路的基礎上,是系統視覺化環境CVE、音訊、影片會議以及超級計算機和海量資料存貯的有機融合。
與協同虛擬環境CVE或分散式虛擬環境DVE不同,網格不僅使得虛擬環境更為逼真,更重要的是改變了 "人/機互動" 模式為 "人/機/協作" 模式。虛擬花園中活動
4、網格計算與雲計算的關係
相同點
計算的並行與合作的特點
不同點
網格計算:思路是聚合分佈資源,支援虛擬組織,提供高層次的服務。雲計算:資源相對集中,主要以資料中心的形式提供底層資源的使用,不強調虛擬組織的概念。5、網格計算的演進
1、GridGain軟體
GridGain記憶體計算平臺是一個高效能、整合化、混合式的企業級分散式架構解決方案,功能強大,有先進的叢集管理功能。
GridGain架構圖
2、Hadoop加速器GridGain
像GridGain等記憶體網格產品(IMDG)不僅可以作為簡單的快取,加速Hadoop中MapReduce計算也是IMDG的一個亮點。這樣記憶體計算領域又多了一種思路和選擇,而不只是Spark獨霸一方的局面。關於GridGain的功能介紹請參考《開源IMDG之GridGain》
Hadoop處理流程
3、Spark應用
Apache IngIt提供了一個Spark RDD抽象的實現,可以輕鬆的在作業中共享記憶體狀態。
4、Ignite軟體
是一個以記憶體為中心的分散式資料庫、快取和處理平臺,意義在PB級資料中心,以記憶體級的速度進行事務性、分析性以及流式負載的處理。