回覆列表
  • 1 # IT人劉俊明

    大資料是我的主要研究方向之一,這個問題也比較有代表性,所以我來回答一下。

    大資料專案不僅涉及到資料的儲存、安全、分析,還涉及到資料的採集、整理、呈現和應用等內容,並且與物聯網、雲計算關係密切。下面我從大資料的產業鏈入手,來談一下如何開始學習大資料。

    大資料的產業鏈

    我們談到大資料首先要了解到底什麼是大資料,大資料都涉及到哪些技術,大資料都能做什麼事情?

    早期我們在談論大資料的時候,我們更多的強調資料的規模大、結構多樣、速度快、價值密度低等概念,而目前的大資料代表了圍繞資料的整個產業鏈,包括資料的採集一直到資料的分析、呈現等內容。

    接下來,資料透過網路傳送到雲計算平臺,在雲計算平臺的支援下,大資料完成資料的儲存、安全和分析的一系列操作,可以說雲計算平臺給大資料提供了支撐環境。所以,要學習大資料也要了解雲計算。

    現在的大資料不僅僅能夠做資料分析,更是為人工智慧提供了支撐,比如在機器學習領域,需要大量的訓練資料來訓練演算法,而大資料恰恰可以提供資料。可以說現在的大資料為科技領域的發展起到了重要的助力作用。

    大資料的技術組成

    大資料是一個典型的多學科交叉領域,需要計算機專業、數學、統計等專業人才共同合作。大資料平臺有兩個重要基礎,一個是分散式儲存,一個是分散式計算,在這兩個基礎功能之上再完成各個場景的應用。

    比如,目前比較流行的大資料平臺有Hadoop和Spark,Hadoop平臺是基於Java語言開發的,包括了HDFS和MapReduce兩個大部分,Hadoop生態健全,應用廣泛,目前很多商業大資料系統都是基於Hadoop構建的。Spark採用基於記憶體運算的模式,所以在速度上要比Hadoop快一些,另外Spark所採用的Scala語言更靈活一些,得到了很多Java程式設計師的喜愛。

    當然,搭建Hadoop、Spark平臺只是第一步,接下來要對資料進行分析、呈現和應用。大資料演算法工程師要根據不同的應用場景來設計不同的演算法,常見的演算法包括支援向量機、樸素貝葉斯、k近鄰、決策樹等等,這些演算法往往也是機器學習的常見演算法,所以從大資料轉向機器學習是非常方便的,我就是從大資料開始進入機器學習領域的研究。

    對於統計專業人才來說,大資料是一個重要的舞臺,大資料能為統計提供豐富的資料,可以使用很多工具完成資料分析任務,R語言就是一個好選擇。

    相信透過我的介紹,大家對大資料有了一個概要的瞭解。

    總之,大資料的學習要找到一條適合自己的切入點,然後逐步深入。如果是程式設計師,完全可以從平臺搭建開始。

    如果有大資料方面的問題,也可以諮詢我。

  • 中秋節和大豐收的關聯?
  • 拖拉機快慢檔故障?