回覆列表
  • 1 # 奮奮說三農

    datastage的優點主要有:

    1.支援異構的資料庫:使用內建的元件即可完成不同資料來源/目標(資料庫或檔案等)之間的資料抽取及載入;

    2.支援並行處理架構:開發好的作業不需任何修改,只要透過增加處理節點(邏輯節點——一機多節點,或者物理節點——計算機叢集,或兩者結合),即可實現近線性的ETL效率提升(在硬體效能支援的基礎上);

    3.圖形化的開發介面:開發者不需要了解後臺底層是如何與各個資料來源/目標進行互動的,只需要專心於ETL過程的邏輯實現即可,軟體開發使用模組化的功能元件,透過相互之間的組合來實現ETL需求,內建各種資料處理函式,可處理絕大多數複雜邏輯,開發者只要掌握DS圖形化開發和基礎的ETL知識即可,無需深厚的程式碼程式設計功底,降低了開發人員更替的成本;

    4.圖形化的監控、排程介面:實現作業排程、執行、日誌檢視、排錯及維護。

    5.便捷的遷移過程:所有ETL作業可匯出進行備份,並可在新的DS伺服器上匯入,不需要重新開發即可直接使用,降低系統故障導致開發成果丟失的風險。

    6.強大的自定義元件:可透過C等語言開發自定義元件,實現更豐富、更有針對性的功能元件。

    缺點:

    1.對硬體要求較高,尤其是

    8.x

    之後的版本,對CPU和記憶體、硬碟空間的要求更大(8.5版通常要求4CPU/6G記憶體為最低配置,如果單安裝DS約需8~10G磁碟空間,安裝全套產品則需要15~20GB)。

    2.ds

    自身排程、監控客戶端功能略薄弱,在龐大的作業數量和複雜的排程需求下,通常需要基於DS自身API來額外開發排程及監控程式便於運維。

    3.另外,datastage還支援資料質量清洗(quality stage),不過它的這個功能在中國的語言環境下水土不服,不怎麼好用。

    其他:

    1.datastage

    的並行引擎是此產品的一大亮點,現在datastage是IBM information server套件下的一個組成部分,新的版本在不斷更新完善這套龐大的系統,將支援更多的資料來源,提供更多的開發功能元件,並且在整合websphere、DB2後,支援快速生成作業、效能調優、更豐富的元資料管理、血緣分析等功能,基本上都是建立於datastage並行引擎基礎上的。

    2.雖然IBM收購了datastage,版本從

    7.X

    升到現在的

    9.X

    ,但是核心的datastage並行引擎在歷次版本更新中沒有做本質的改變。

    3.DS

    通常用於日常跑批,資料的實時傳輸不是它的長項,雖然可以藉助一些輔助程式迴圈呼叫ETL作業實現準實時資料重新整理,但如果需要實時資料功能的話,可透過CDC類軟體實現(change data capture變化資料捕獲)。

    4.目前還沒有完美的ETL工具,但合適的才是最好的,DS本身的功能能夠支援絕大多數ETL場景,當然也有些特殊的客戶需求是無法實現的,需要與其它產品配合,或者進行自定義元件的開發。

  • 中秋節和大豐收的關聯?
  • 蘋果下架一大批使用MDM技術的家長控制App,背後到底有怎樣的考慮?