首頁>技術>

首先來介紹一下ETL,是英文Extract-Transform-Load的縮寫,用來描述將資料從來源端經過抽取(extract)、轉換(transform)、載入(load)至目的端的過程。將業務系統的資料經過抽取、清洗轉換之後載入到資料倉庫的過程,目的是將企業中的分散、零亂、標準不統一的資料整合到一起,為企業的決策提供分析依據, ETL是BI(商業智慧)專案重要的一個環節。ETL一詞較常用在資料倉庫,但其物件並不限於資料倉庫。

ETL的實現需要藉助工具,對於開源世界,也提供了很多優秀的開源工具,例如Apatar-Java 編寫,是一個開源的資料抽取、轉換、 裝載(ETL)專案;Heka-一個用來收集和整理來自多個不同源的資料的工具,透過對資料進行收集和整理後傳送結果報告到不同的目標用於進一步分析;Scriptella-一個開源的 ETL (抽取-轉換-載入)工具和一個指令碼執行工具,採用 Java 開發;Talend-針對的資料整合工具市場的 ETL(資料的提取 Extract、傳輸 Transform、載入Load)開源軟體;Kettle-一款國外開源的 etl 工具,純 java 編寫,綠色無需安裝。今天就來介紹一下kettle這個工具。

kettle這個工具資料抽取高效穩定,它有兩種指令碼檔案,transformation 和 job,transformation 完成針對資料的基礎轉換,job 則完成整個工作流的控制。kettle家族有四大工具:

1、SPOON:允許你透過圖形介面來設計ETL轉換過程(Transformation)

2、PAN:Pan是一個後臺執行的程式,沒有圖形介面,類似於時間排程器

3、CHEF:任務透過允許每個轉換,任務,指令碼等等,更有利於自動化更新資料倉庫的複雜工作。

4、KITCHEN:批次使用由Chef設計的任務

二、由於是綠色免安裝的,所以下載完可以找到指定開啟檔案進行開啟(Windows 系統用Sponn.bat檔案,類UNIX平臺用spoon.sh檔案):

四、關於kettle介面中的元素及使用,我們後續會一一說明:

19
  • BSA-TRITC(10mg/ml) TRITC-BSA 牛血清白蛋白改性標記羅丹明
  • 木蘭語言多次引用模組的行為小結