首頁>Club>
向量資料,幾何資料,POI資料,柵格資料等等 是存在資料庫還是檔案,一般透過什麼方式索引
11
回覆列表
  • 1 # 三克氫

    大資料GIS是在大資料浪潮下,GIS從傳統邁向大資料時代的一次變革。大資料GIS能為空間大資料的儲存、分析和視覺化提供更先進的理論方法和軟體平臺,促進了傳統GIS的產業升級,為地理資訊產業發展提供新的渠道和原動力,服務於中國“十三五”期間的大資料產業發展和部署。

    大資料GIS

    大資料領域已經出現了許多實用的IT技術,例如分散式檔案系統、分散式資料庫、分散式計算框架、流處理框架等。這些技術使我們能夠使用普通機器對大資料進行處理和挖掘,但多聚焦於通用的非空間資料領域,對空間資料的專業分析能力不足。而傳統GIS由於受其IT技術框架的限制,並不能很好地應對大資料對分散式儲存與計算、流資料處理等的技術要求。

    大資料GIS就是把大資料技術與GIS技術進行深度融合,把GIS的核心能力嵌入到大資料基礎框架之內,並打造出完整的大資料GIS技術體系。大資料GIS的核心技術如下圖所示:

    分散式空間資料庫(Distributed Spatial DataBase,DSDB)是使用計算機網路把面向物理上分散,而管理和控制又需要不同程度集中的空間資料庫連線起來,共同組成一個統一的資料庫的空間資料管理系統。

    分散式空間資料庫可看成是空間資料庫+計算機網路。但是它絕對不是二者的簡單結合,它是把物理上分散的空間資料庫組織成為一個邏輯上單一的空間資料庫系統;同時,又保持了單個物理空間資料庫的自治性。

    分散式空間資料庫系統是由若干個站點(或節點)集合而成,它們透過網路連線在一起,每個站點都是一個獨立的空間資料庫系統,它們都擁有各自的資料庫和相應的管理系統及其分析工具。整個資料庫在物理上儲存於不同的裝置上,而在邏輯上是一個統一的空間資料庫。

    分散式空間資料庫系統的特點

    可靠性:在DDB中,單一部件的失效,不一定使整個系統失效,這比集中式資料庫的一個部件的損壞而導致整個系統的崩潰好得多,也就是可靠性提高了很多。而且,在DDB中,因為在不同的節點上可能有資料的副本,因此可以透過多個版本的副本恢復失效的資料。自治性:DDB允許每個場所有各自的自主權,允許機構的各個組織對其自身的資料實施區域性控制,有區域性的責任制,使它們較少地依賴某些遠端資料處理中心。模組性:DDB是一個類似於模組化的系統,因為增加一個新的節點,遠比用一個更大的系統代替一個已有的集中式系統要容易得多。這使得整個系統的結構十分靈活,增加或減少處理能力比較容易,而且這種增減對系統的其他部分影響較小。模組性決定了DDB具有很強的升級能力和較低的投資費用。高效率、高可用性:在DDB中,透過合理的分佈資料,使得資料儲存在其常用的節點,這樣既縮短了響應的時間,減少了通訊費用,又提高了資料的可用性。並且,對常用資料的重複儲存,也可以提高系統的響應速度和資料的可用性。

    Hbase 分散式資料庫

    概述:Hbase 是一個基於 HDFS 的面向列的分散式資料庫,源於 Google 的 BigTable 基於 GFS 進行分散式資料儲存一樣,前文提到,Hbase 是基於流式資料訪問,對於第時間延遲的資料 訪問並不適合在 HDFS 上執行,所以需要實時性的隨機訪問超大規模的資料集,使用 Hbase 則是更好的選擇;

    作用:Hbase 作為典型的非關係型資料庫,Nosql 資料庫主要分為以下幾類:

    Ø 基於鍵值對儲存的型別;

    Ø 基於文件儲存的型別;

    Ø 基於列儲存的型別;

    Ø 基於圖形資料儲存的型別;

    在 Nosql 領域中,Hbase 本身不是最優秀的,但得益於與 hadoop 的整合,為其帶來了強大 的擴充套件空間。Hbase 本質只有插入操作,更新刪除等操作都是透過插入操作來完成,這是由 於底層 HDFS 流式訪問(一次寫入,多次讀取)決定的,每次插入資料時,資料會帶有“時 間戳”的標記,形成多個版本,Hbase 對於一個數據會保留其固定的版本數量,如果在查詢 時,也是顯示出距離當前時間最近的一個新版本;

    傳統的GIS資料儲存大多是關係型資料庫,但關係型資料庫在海量資料的管理中面臨許多問題,包括高併發讀寫、難擴充套件等,已經成為制約GIS發展的瓶頸。同時,GIS資料中的圖片、影像資料等都是非結構化的,關係型資料庫不能合理地處理非結構化資料。而HBase以其高可靠性、高擴充套件性、高容錯性、高效性以及適用於海量非結構化資料儲存處理分析的優勢在處理GIS資料方面提供了另一種思路,即解決HBase應對GIS中的兩大挑戰:大規模資料處理的時延和空間位置建模.

    格柵資料獲取

    柵格資料的索引

    層級編碼、X座標與Y座標表示的不僅是一個瓦片資料的索引,同時還是瓦片資料的地理位置標誌,透過數學公式在查詢和檢索時,行列編碼和經緯度之間可以實現相互轉換。本文中柵格資料存於HBase,rowkey的表示方式為zoom_level、x_coordinate、y_coordinate,列簇(column family)為i,列(column)為png_info。柵格資料在系統中的展示形式如圖所示。

    在柵格資料切片及寫HBase上主要是略去了磁碟寫步驟,預設的柵格資料獲取是以檔案形式儲存在本地磁碟,再透過讀磁碟檔案寫入HBase。對北京市分別切片至16層、18層,並將柵格資料寫入HBase測試結果

    從表可以看出,改進後略去磁碟寫操作,在柵格資料量較少時效能反而下降。但在處理資料規模較大(如對中國地圖或世界地圖進行切片)時,會因持續寫磁碟操作,生成資料夾及切片檔案數太多導致inode(索引節點)耗盡。經過約24 h的持續切片,生成海量切片小檔案,導致伺服器inode用盡,即使硬碟空間仍有空餘,也無法在硬碟上建立新檔案,進而切片工作無法正常完成。

    若將切片直接寫入傳統資料庫(如MySQL、Oracle、PostgreSQL等),寫入速度不斷降低,導致寫入時間不可接受,後期的檢索時間也較慢。另外,海量切片小檔案寫入傳統資料庫會對資料庫造成較高的負載,系統的穩定性和擴充套件性難以控制。

    經過改進測試,對世界地圖連續切片一個月,形成83 GB的柵格資料,未經過磁碟寫操作直接寫入HBase,未出現任何異常情況。

    本文對柵格資料的檢索也進行了驗證,在124 217 416條記錄的HBase表上檢索指定切片的響應時間為毫秒級(0.004 s)。同時,HBase也支援指定範圍檢索,一次返回萬級別切片的響應時間為秒級(5.077 s)。

    為了對海量向量空間資料進行高效儲存、管理與檢索,本文設計了向量空間資料的rowkey,並將資料儲存於HBase。實驗結果顯示,對中國地圖的向量空間資料在24 201 991條記錄的Hbase表上檢索指定空間向量點的響應時間為毫秒級(0.021 s)。檢索線或面的響應時間為秒級,若返回一個面上的千級別的座標點時間約為3.551 s。

    針對智慧城市建設中的資料管理問題,利用HBase分散式資料庫的列儲存模型特點,設計了一種基於HBase的GIS資料管理系統,實現了對向量空間資料與柵格資料的高效儲存、索引與檢索。GIS向量空間資料在HBase中儲存,首先確定rowkey的設計,使得在檢索空間位置時返回儘可能少的資料請求,即在檢索時既考慮經度與緯度,又考慮空間資料型別和圖層屬性。設計了基於表名、空間資料型別、經緯度Geohash編碼、網格ID的rowkey方法。為了加快切片效率和減少儲存成本,本文在生成柵格資料時在mapnik切片的基礎上做了最佳化,使柵格資料不經過磁碟寫操作,直接寫入HBase。

    參考文獻

    《基於HBase的海量GIS資料分散式處理實踐》

  • 中秋節和大豐收的關聯?
  • 奚夢瑤算不算頂級美女?