首頁>Club>
7
回覆列表
  • 1 # 紙牌資訊

    Apache Pig是對MapReduce的一種抽象。它是一個工具/平臺,用於分析代表資料流的更大資料集。Pig通常與 Hadoop一起使用 ; 我們可以使用Apache Pig在Hadoop中執行所有資料操作操作。

    要編寫資料分析程式,Pig提供了一種稱為 Pig Latin 的高階語言。該語言提供了各種運營商使用哪些程式設計師可以開發自己的功能來讀取,寫入和處理資料。

    要使用 Apache Pig 分析資料,程式設計師需要使用Pig Latin語言編寫指令碼。所有這些指令碼都在內部轉換為Map和Reduce任務。Apache Pig有一個稱為 Pig Engine 的元件,它接受Pig Latin指令碼作為輸入並將這些指令碼轉換為MapReduce作業。

    為什麼我們需要Apache Pig?

    通常不擅長Java的程式設計師通常用於與Hadoop一起工作,特別是在執行任何MapReduce任務時。Apache Pig對所有這些程式設計師來說都是一個福音。

    使用 Pig Latin ,程式設計師可以輕鬆執行MapReduce任務,而無需在Java中輸入複雜程式碼。

    Apache Pig使用 多查詢方法 ,從而縮短程式碼長度。例如,需要您在Java中輸入200行程式碼(LoC)的操作可以透過在Apache Pig中輸入少於10個LoC來輕鬆完成。Apache Pig最終將開發時間縮短了近16倍。

    Pig Latin是 SQL類語言 ,當熟悉SQL時很容易學習Apache Pig。

    Apache Pig提供了許多內建運算子來支援資料操作,如連線,過濾器,排序等。此外,它還提供巢狀資料型別,如元組,地圖和MapReduce中缺失的對映。

    pig的特點

    Apache Pig具有以下功能 -

    豐富的運算子 - 它提供了許多運算子來執行連線,排序,檔案管理器等操作。易於程式設計 - Pig Latin與SQL類似,如果擅長SQL,編寫Pig指令碼也很容易。最佳化機會 - Apache Pig中的任務自動最佳化其執行,因此程式設計師只需關注語言的語義。可擴充套件性 - 使用現有的運算子,使用者可以開發自己的函式來讀取,處理和寫入資料。UDF的 - Pig提供了 在其他程式語言(如Java)中建立 使用者定義函式的功能 ,並將它們呼叫或嵌入到Pig指令碼中。處理各種資料 - Apache Pig分析結構化和非結構化的各種資料。 它將結果儲存在HDFS中。

  • 中秋節和大豐收的關聯?
  • 矩陣式組織結構適合在什麼情況下使用,以及它有哪些優缺點?