首頁>Club>
以及實現它的方法和工具或者模式包括哪些?
12
回覆列表
  • 1 # Cloudapi

    什麼是ETL呢?

    ETL是將業務系統的資料經過抽取、清洗轉換之後載入到資料倉庫的過程,目的是將企業中的分散、零亂、標準不統一的資料整合到一起,為企業的決策提供分析依據。

    國內最好的ETL的資料交換平臺是什麼?

    RestCloud ETL資料交換平臺透過視覺化的拖、拉、拽即可完成ETL流程的構建並實現資料抽取、轉換、清洗、脫敏、載入等功能,RestCloud ETL從架構、易用性、傳輸效能、視覺化、 功能豐富性等方面均全面超越Kettle等開源ETL工具。

    推薦ETL的工具用RestCloud比較好,平臺支援在MongoDB中儲存所有源表到目標表之間的交換資料。

  • 2 # 未來資料科技

    資料倉庫,百度百科的解釋:資料倉庫,英文名稱為Data Warehouse,可簡寫為DW或DWH。資料倉庫,是為企業所有級別的決策制定過程,提供所有型別資料支援的戰略集合。它是單個數據儲存,出於分析性報告和決策支援目的而建立。 為需要業務智慧的企業,提供指導業務流程改進、監視時間、成本、質量以及控制。

    通俗的解釋資料倉庫

    上面的解釋不夠直白,下面用一個例子來解釋一下,比如秦國在統一六國以後,發現其他六國都有自已的文字,很多文字之間差距較大,大家互不認識,為方便統治和管理,秦王開始統一文字。把來自其他各國的文字進行了統一,最終形成了全國通用的文字。方便了以後的使用者。

    資料倉庫也是類似,一個公司的資料可能來自不同的系統,有MySQL、Oracle、SQLserver等,這些資料之間規則不統一,不能直接拿來使用,所以為了方便的使用,就把它們取來放到一個統一規則的地方,然後就可以對這些資料進行使用,比如:資料探勘、資料分析、製作報表等。而這個地方存放資料的地方就叫資料倉庫。

    為了方便、穩定、安全的使用資料。資料倉庫必須有規則

    目前資料倉庫的特點如下

    面向主題

    不同於傳統資料庫對應於某一個或多個專案,資料倉庫根據使用者實際需求,將不同資料來源的資料在一個較高的抽象層次上做整合,所有資料都圍繞某一主題來組織。

    比如購物是一個主題,那麼購物裡面包含使用者、訂單、支付、物流等資料綜合,對這些資料要進行歸類並分析,分析這個物件資料的一個完整性、一致性的描述,能完整、統一的劃分物件所設計的各項資料。

    資料整合

    第一:每一個主題的源資料在原有分散資料庫中的有許多重複和不一致,且不同資料庫的資料是和不同的應用邏輯捆綁的。

    第二:資料倉庫中的綜合性資料不能從原有的資料庫系統直接得到,因此在資料進入資料倉庫之前要進過統一和綜合。(欄位同名異意,異名同義,長度等)

    資料不可更新和修改

    資料倉庫的資料主要是提供決策分析用,設計的資料主要是資料查詢,一般情況下不做修改,這些資料反映的是一段較長時間內歷史資料的內容,有一塊修改了影響的是整個歷史資料的過程資料。

    資料倉庫的查詢量往往很大,所以對資料查詢提出了更高的要求,要求採用各種複雜的索引技術,並對資料查詢的介面友好性和資料凸顯性提出更高的要求。

    隨時間不斷變化

    資料倉庫的資料是隨著時間變化而不斷增加新的資料。

    資料倉庫隨著時間變化不斷刪去久的資料內容,資料倉庫的資料也有時限的,資料庫的資料時限一般是60 ~ 90天,而資料倉庫的資料一般是5年~10年。

    資料倉庫中包含大量的綜合性資料,這些資料很多是跟時間有關的,這些資料特徵都包含時間項,以標明資料的歷史時期。

    資料倉庫分層架構

    ODS層(臨時儲存層):也叫貼源層,就是將所有涉及業務系統的資料抽取到這一層集中存放,同時也會保留歷史資料,這一層基本保留了與源系統一樣的結構和資料。一般對這些資料分為全量更新和增量更新,通常在貼源的過程中會做一些簡單的清洗。

    DW層(資料倉庫層):將一些資料關聯的日期進行拆分,使得其更具體的分類,一般拆分成年、月、日,而ODS層到DW層的ETL指令碼會根據業務需求對資料進行清洗、設計,如果沒有業務需求,則根據源系統的資料結構和未來的規劃去做處理,對這層的資料要求是一致、準確、儘量建立資料的完整性。

    APP層(應用層):它應技術或業務需要而建,直面需求,方便展現,同時提高資料的儲存效能。

    ETL,是英文Extract-Transform-Load的縮寫,用來描述將資料從來源端經過抽取(extract)、轉換(transform)、載入(load)至目的端的過程。ETL一詞較常用在資料倉庫,但其物件並不限於資料倉庫

    ETL就是資料搬家的過程

    搬家第一步,我們要將舊住所的東西打包;

    第二步,我們叫來搬家公司將打包的東西運輸到新住所;

    第三步,我們在新住所將打包的東西解開,重新整理,擺放。

    ETL的主要作用

    資料要從一地方到另一個地方,必須要入鄉隨俗。也就是說,資料到某一層就要按照該層對資料的要求去存放,而ETL就是告訴資料每層的要求是什麼。

    完整的說就是ETL是構建資料倉庫的重要一環,使用者從資料來源抽取出所需的資料,經過資料清洗,最終按照預先定義好的資料倉庫模型,將資料載入到資料倉庫中去。資料清洗是指將不符合要求的資料除掉,包括錯誤資料、不完整資料、重複資料。資料轉換要做的工作是把所有資料的模板、標準、計算規則等進行統一,如儲存結構、資料編碼等。清洗轉換好的資料按著標準的ETL架構儲存到資料倉庫中,以備進行資料分析和決策。

    ETL主要有兩種任務

    一種是資料流任務,相當於將舊住所打包的東西運輸到新住所;

    一種是清理任務,相當於在新住所重新整理擺放。

    ETL的重要性

    ETL是商業智慧(BI)重要的一個環節,也是進行資料分析的基礎。資料倉庫構建好後,才有可能基於資料倉庫來構建分析模型並根據需求展現最終的結果。做好一個BI專案,其中很大一部分工作是ETL,ETL的質量決定了BI是否成功。有的BI工具本身就帶著ETL功能,實際上是把前期和後期工作整合到一起了。有的公司也是自己開發的ETL工具。當然專門的ETL工具就有很多,開源有免費的比如:kettle,也有收費如:Informatica完全可以滿足BI的需要,因而在工作中除了要考慮工具的效能、效率,還要考慮專案的成本,經濟也是必須考慮的因素。

  • 3 # 數通暢聯

    資料倉庫ETL用於一些需要進行大資料量處理的專案中,ETL可以將業務系統中的資料經過抽取、清洗轉換載入進數倉中,將企業中零散、雜亂、不統一的資料進行規劃整合

    在ETL中有兩個元件,一個叫做轉換,一個叫做作業,兩者可以相互呼叫,也可以各自獨立呼叫,具體方式根據實際情況而定。在一般情況下,轉換是從業務系統中抽取資料加工並處理,作業則是用來呼叫多個轉換,實現快速的管理。在轉換中配置流程時,在業務系統中對資料進行加工和處理,但是在從業務系統中抽取資料前,需要明白自己需要什麼資料,需要將它們轉換成什麼樣。

  • 4 # 種豆大叔

    ETL定義就不說了,樓上已經回答過,這裡重點分享下一般企業中ETL的工作模式和實現工具。

    我們可以把資料倉庫劃分為資料採集、資料儲存和資料應用三個層次。

    資料採集

    資料採集包括結構化資料的採集和非結構化資料的採集,傳統型資料倉庫和nosql型資料倉庫的做法區別較大。

    傳統型資料倉庫:

    一般做法是先將源資料匯出成檔案形式,再透過FTP傳輸到資料倉庫伺服器,然後再載入進資料倉庫介面層或者ods層。

    這個過程主要是涉及到ETL中的E和L,其實現工具主要是資料庫自帶的匯入匯出工具,或者是kettle、datastage、informatic等etl工具。

    nosql型資料倉庫:

    一般是基於hadoop生態的資料倉庫,不僅有結構化資料的採集,也有非結構資料的採集。

    結構化資料採集:可同傳統型資料倉庫一樣,透過落地檔案來完成;也可使用hadoop元件sqoop,只需簡單配置,便可同時完成抽取和載入。如果是實時採集,可以透過maxwell或者flume等工具將資料先放入kafka,再透過流式計算元件sparkstreaming或者flink進行加工轉換或者直接存入hdfs;

    非結構化資料採集:主要為日誌資料,同樣可使用flume進行採集,直接載入進hdfs或者先進入kafka。

    資料儲存

    介面層或者ods層資料都是操作型資料儲存,表結構一般都是繼承了源系統的結構,偏向OLTP的表設計。

    為了應對OLAP,資料倉庫之父inmon和kimball都提出了各自的資料倉庫建模思路,前者提出了實體關係建模方法論,後者為維度建模方法論。

    無論是何種建模方法,勢必都需要做一些模型上的轉換,這就是ETL中的T。這一步主要是透過編寫sql進行加工轉換,形成的資料層叫做整合層或者中間層。

    資料應用

    這個階段,同樣主要是透過編寫sql進行工作,輸出的是各種應用表,形成的資料層叫應用層。

    這個階段,做的工作同樣也是ETL中的T,即整合層或者中間層到應用層的轉換。

    (hadoop生態的資料倉庫,不僅可編寫sql,也可使用spark透過rdd做一些轉換的工作)

    所以說,現在的資料倉庫其實更像是ELT,而不是ETL。

  • 中秋節和大豐收的關聯?
  • 喝酒臉紅的人,是不是酒精中毒?