首頁>Club>
10
回覆列表
  • 1 # 技術同胞
    什麼是大資料?

    大資料(big data),IT行業術語,是指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程最佳化能力的海量、高增長率和多樣化的資訊資產。

    在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大資料時代》 中大資料指不用隨機分析法(抽樣調查)這樣捷徑,而採用所有資料進行分析處理。大資料的5V特點(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)。

    大資料開發學習路線:

    第一階段:Hadoop生態架構技術1、語言基礎Java:多理解和實踐在Java虛擬機器的記憶體管理、以及多執行緒、執行緒池、設計模式、並行化就可以,不需要深入掌握。Linux:系統安裝、基本命令、網路配置、Vim編輯器、程序管理、Shell指令碼、虛擬機器的選單熟悉等等。Python:基礎語法,資料結構,函式,條件判斷,迴圈等基礎知識。2、環境準備這裡介紹在windows電腦搭建完全分散式,1主2從。VMware虛擬機器、Linux系統(Centos6.5)、Hadoop安裝包,這裡準備好Hadoop完全分散式叢集環境。3、MapReduceMapReduce分散式離線計算框架,是Hadoop核心程式設計模型。4、HDFS1.0/2.0HDFS能提供高吞吐量的資料訪問,適合大規模資料集上的應用。5、Yarn(Hadoop2.0)Yarn是一個資源排程平臺,主要負責給任務分配資源。6、HiveHive是一個數據倉庫,所有的資料都是儲存在HDFS上的。使用Hive主要是寫Hql。7、SparkSpark 是專為大規模資料處理而設計的快速通用的計算引擎。8、SparkStreamingSpark Streaming是實時處理框架,資料是一批一批的處理。9、SparkHiveSpark作為Hive的計算引擎,將Hive的查詢作為Spark的任務提交到Spark叢集上進行計算,可以提高Hive查詢的效能。10、StormStorm是一個實時計算框架,Storm是對實時新增的每一條資料進行處理,是一條一條的處理,可以保證資料處理的時效性。11、ZookeeperZookeeper是很多大資料框架的基礎,是叢集的管理者。12、HbaseHbase是一個Nosql資料庫,是高可靠、面向列的、可伸縮的、分散式的資料庫。13、Kafkakafka是一個訊息中介軟體,作為一箇中間緩衝層。14、FlumeFlume常見的就是採集應用產生的日誌檔案中的資料,一般有兩個流程。一個是Flume採集資料儲存到Kafka中,方便Storm或者SparkStreaming進行實時處理。另一個流程是Flume採集的資料儲存到HDFS上,為了後期使用hadoop或者spark進行離線處理。

    第二階段:資料探勘演算法1、中文分詞開源分詞庫的離線和線上應用2、自然語言處理文字相關性演算法3、推薦演算法基於CB、CF,歸一法,Mahout應用。4、分類演算法NB、SVM5、迴歸演算法LR、DecisionTree6、聚類演算法層次聚類、Kmeans7、神經網路與深度學習NN、Tensorflow

    以上就是學習Hadoop開發的一個詳細路線,如果需要了解具體框架的開發技術,可諮詢加米穀大資料老師,詳細瞭解。

    學習大資料開發需要掌握哪些技術呢?

    (1)Java語言基礎Java開發介紹、熟悉Eclipse開發工具、Java語言基礎、Java流程控制、Java字串、Java陣列與類和物件、數字處理類與核心技術、I/O與反射、多執行緒、Swing程式與集合類

    (2)HTML、CSS與JavaPC端網站佈局、HTML5+CSS3基礎、WebApp頁面佈局、原生Java互動功能開發、Ajax非同步互動、jQuery應用

    (3)JavaWeb和資料庫資料庫、JavaWeb開發核心、JavaWeb開發內幕

    Linux&Hadoop生態體系

    Linux體系、Hadoop離線計算大綱、分散式資料庫Hbase、資料倉庫Hive、資料遷移工具Sqoop、Flume分散式日誌框架分散式計算框架和Spark&Strom生態體系

    (1)分散式計算框架Python程式語言、Scala程式語言、Spark大資料處理、Spark—Streaming大資料處理、Spark—Mlib機器學習、Spark—GraphX 圖計算、實戰一:基於Spark的推薦系統(某一線公司真實專案)、實戰二:新浪網(www.sina.com.cn)

    (2)storm技術架構體系Storm原理與基礎、訊息佇列kafka、Redis工具、zookeeper詳解、大資料專案實戰資料獲取、資料處理、資料分析、資料展現、資料應用大資料分析—AI(人工智慧)DataAnalyze工作環境準備&資料分析基礎、資料視覺化、Python機器學習

  • 2 # 水母星人

    訊息佇列很多:

    1、RabbitMQ

    RabbitMQ 2007年釋出,是一個在AMQP(高階訊息佇列協議)基礎上完成的,可複用的企業訊息系統,是當前最主流的訊息中介軟體之一。

    2、ActiveMQ

    ActiveMQ是由Apache出品,ActiveMQ 是一個完全支援JMS1.1和J2EE 1.4規範的 JMS Provider實現。它非常快速,支援多種語言的客戶端和協議,而且可以非常容易的嵌入到企業的應用環境中,並有許多高階功能

    3、RocketMQ

    RocketMQ出自 阿里公司的開源產品,用 Java 語言實現,在設計時參考了 Kafka,並做出了自己的一些改進,訊息可靠性上比 Kafka 更好。RocketMQ在阿里集團被廣泛應用在訂單,交易,充值,流計算,訊息推送,日誌流式處理等

    4、Kafka

    Apache Kafka是一個分散式訊息釋出訂閱系統。它最初由LinkedIn公司基於獨特的設計實現為一個分散式的提交日誌系統( a distributed commit log),,之後成為Apache專案的一部分。Kafka系統快速、可擴充套件並且可持久化。它的分割槽特性,可複製和可容錯都是其不錯的特性。

  • 中秋節和大豐收的關聯?
  • 假如瑪雅人預言2020年是世界末日會怎樣?