而在資訊爆炸的時代,人們可以獲取的資料呈指數倍的增長,單純在固定某個地點進行硬碟的擴充在容量大小、擴充速度、讀寫速度和資料備份等方面上的表現都無法達到要求; 而且大資料處理系統的資料多是來自於客戶,資料的種類多,儲存系統需要儲存各種半結構化、非結構化的資料,如文件、圖片、影片等,因此大資料的儲存宜使用分散式檔案系統來管理這些非結構化資料。
什麼是分散式資料儲存
分散式資料儲存,即儲存裝置分佈在不同的地理位置,資料就近儲存,頻寬上沒有太大壓力。可採用多套低端的小容量的儲存裝置分佈部署,裝置價格和維護成本較低。小容量裝置分佈部署,對機房環境要求也較低。分散式資料儲存將資料分散在多個儲存節點上,各個節點透過網路相連,對這些節點的資源進行統一的管理。這種設計對使用者是透明的,系統為使用者提供檔案系統的訪問介面,使之與傳統的本地檔案系統操作方式類似。這樣的設計解決了傳統的本地檔案系統在檔案大小、檔案數量等方面的限制。
傳統的分散式計算系統中通常計算節點與儲存節點是分開的。當執行計算任務時,首先要把資料從資料節點傳輸至計算節點( 資料向計算遷移) ,這種處理方式會使外存檔案資料 I/O 訪問成為一個制約系統性能的瓶頸。為了減少大資料平行計算系統中的資料通訊開銷,應當考慮將計算向資料靠攏和遷移。如MapReduce模型採用了資料/程式碼互定位的技術方法,該方法讓計算節點首先儘量負責計算其本地儲存的資料,以發揮資料本地化特點; 僅當節點無法處理本地資料時,再採用就近原則尋找其他可用計算節點,並把資料傳送到該可用計算節點。
而在資訊爆炸的時代,人們可以獲取的資料呈指數倍的增長,單純在固定某個地點進行硬碟的擴充在容量大小、擴充速度、讀寫速度和資料備份等方面上的表現都無法達到要求; 而且大資料處理系統的資料多是來自於客戶,資料的種類多,儲存系統需要儲存各種半結構化、非結構化的資料,如文件、圖片、影片等,因此大資料的儲存宜使用分散式檔案系統來管理這些非結構化資料。
什麼是分散式資料儲存
分散式資料儲存,即儲存裝置分佈在不同的地理位置,資料就近儲存,頻寬上沒有太大壓力。可採用多套低端的小容量的儲存裝置分佈部署,裝置價格和維護成本較低。小容量裝置分佈部署,對機房環境要求也較低。分散式資料儲存將資料分散在多個儲存節點上,各個節點透過網路相連,對這些節點的資源進行統一的管理。這種設計對使用者是透明的,系統為使用者提供檔案系統的訪問介面,使之與傳統的本地檔案系統操作方式類似。這樣的設計解決了傳統的本地檔案系統在檔案大小、檔案數量等方面的限制。
傳統的分散式計算系統中通常計算節點與儲存節點是分開的。當執行計算任務時,首先要把資料從資料節點傳輸至計算節點( 資料向計算遷移) ,這種處理方式會使外存檔案資料 I/O 訪問成為一個制約系統性能的瓶頸。為了減少大資料平行計算系統中的資料通訊開銷,應當考慮將計算向資料靠攏和遷移。如MapReduce模型採用了資料/程式碼互定位的技術方法,該方法讓計算節點首先儘量負責計算其本地儲存的資料,以發揮資料本地化特點; 僅當節點無法處理本地資料時,再採用就近原則尋找其他可用計算節點,並把資料傳送到該可用計算節點。