-
1 # 我就是月下
-
2 # 西線學院
如何學習大資料技術?大資料怎麼入門?怎麼做大資料分析?資料科學需要學習那些技術?大資料的應用前景等等問題。由於大資料技術涉及內容太龐雜,大資料應用領域廣泛,而且各領域和方向採用的關鍵技術差異性也會較大,難以三言兩語說清楚,本文來說說到底要怎麼學習它,以及怎麼避免大資料學習的誤區,以供參考。
大資料要怎麼學:資料科學特點與大資料學習誤區
(1)大資料學習要業務驅動,不要技術驅動:資料科學的核心能力是解決問題。
大資料的核心目標是資料驅動的智慧化,要解決具體的問題,不管是科學研究問題,還是商業決策問題,抑或是政府管理問題。
所以學習之前要明確問題,理解問題,所謂問題導向、目標導向,這個明確之後再研究和選擇合適的技術加以應用,這樣才有針對性,言必hadoop,spark的大資料分析是不嚴謹的。
不同的業務領域需要不同方向理論、技術和工具的支援。如文字、網頁要自然語言建模,隨時間變化資料流需要序列建模,影象音訊和影片多是時空混合建模;大資料處理如採集需要爬蟲、倒入匯出和預處理等支援,儲存需要分散式雲端儲存、雲計算資源管理等支援,計算需要分類、預測、描述等模型支援,應用需要視覺化、知識庫、決策評價等支援。所以是業務決定技術,而不是根據技術來考慮業務,這是大資料學習要避免的第一個誤區。
(2)大資料學習要善用開源,不要重複造輪子:資料科學的技術基因在於開源。IT前沿領域的開源化已成不可逆轉的趨勢,Android開源讓智慧手機平民化,讓我們跨入了移動網際網路時代,智慧硬體開源將帶領跨入物聯網時代,以Hadoop和Spark為代表的大資料開源生態加速了去IOE(IBM、ORACLE、EMC)程序,倒逼傳統IT巨頭擁抱開源,谷歌和OpenAI聯盟的深度學習開源(以Tensorflow,Torch,Caffe等為代表)正在加速人工智慧技術的發展。
資料科學的標配語言R和Python更是因開源而生,因開源而繁榮,諾基亞因沒把握開源大勢而衰落。為什麼要開源,這得益於IT發展的工業化和構件化,各大領域的基礎技術棧和工具庫已經很成熟,下一階段就是怎麼快速組合、快速搭積木、快速產出的問題,不管是linux,anroid還是tensorflow,其基礎構件庫基本就是利用已有開源庫,結合新的技術方法實現,組合構建而成,很少在重複造輪子。
另外,開源這種眾包開發模式,是一種集體智慧程式設計的體現,一個公司無法積聚全球工程師的開發智力,而一個GitHub上的明星開源專案可以,所以要善用開源和集體智慧程式設計,而不要重複造輪子,這是大資料學習要避免的第二個誤區。
(3)大資料學習要以點帶面,不貪大求全:資料科學要把握好碎片化與系統性。根據前文的大資料技術體系分析,我們可以看到大資料技術的深度和廣度都是傳統資訊科技難以比擬的。
我們的精力很有限,短時間內很難掌握多個領域的大資料理論和技術,資料科學要把握好碎片化和系統性的關係。
何為碎片化,這個碎片化包括業務層面和技術層面,大資料不只是谷歌,亞馬遜,BAT等網際網路企業,每一個行業、企業裡面都有它去關注資料的痕跡:一條生產線上的實時感測器資料,車輛身上的感測資料,高鐵裝置的執行狀態資料,交通部門的監控資料,醫療機構的病例資料,政府部門的海量資料等等,大資料的業務場景和分析目標是碎片化的,而且相互之間分析目標的差異很大;另外,技術層面來講,大資料技術就是萬金油,一切服務於資料分析和決策的技術都屬於這個範疇,其技術體系也是碎片化的。
那怎麼把握系統性呢,不同領域的大資料應用有其共性關鍵技術,其系統技術架構也有相通的地方,如系統的高度可擴充套件性,能進行橫向資料大規模擴張,縱向業務大規模擴充套件,高容錯性和多源異構環境的支援,對原有系統的相容和整合等等,每個大資料系統都應該考慮上述問題。如何把握大資料的碎片化學習和系統性設計,離不開前面提出的兩點誤區,建議從應用切入、以點帶面,先從一個實際的應用領域需求出發,搞定一個一個技術點,有一定功底之後,再舉一反三橫向擴充套件逐步理解其系統性技術。
(4)大資料學習要勇於實踐,不要紙上談兵:資料科學還是資料工程?
大資料只有和特定領域的應用結合起來才能產生價值,資料科學還是資料工程是大資料學習要明確的關鍵問題,搞學術發paper資料科學OK,但要大資料應用落地,如果把資料科學成果轉化為資料工程進行落地應用,難度很大,這也是很多企業質疑資料科學價值的原因。且不說這種轉化需要一個過程,從業人員自身也是需要審視思考的。
工業界包括政府管理機構如何引入研究智力,資料分析如何轉化和價值變現?資料科學研究人員和企業大資料系統開發工程人員都得想想這些關鍵問題。
目前資料工程要解決的關鍵問題主線是資料(Data)>知識(Knowledge)>服務(Service),資料採集和管理,挖掘分析獲取知識,知識規律進行決策支援和應用轉化為持續服務。解決好這三個問題,才算大資料應用落地,那麼從學習角度講,DWS就是大資料學習要解決問題的總目標,特別要注重資料科學的實踐應用能力,而且實踐要重於理論。從模型,特徵,誤差,實驗,測試到應用,每一步都要考慮是否能解決現實問題,模型是否具備可解釋性,要勇於嘗試和迭代,模型和軟體包本身不是萬能的,大資料應用要注重魯棒性和實效性,溫室模型是沒有用的,訓練集和測試集就OK了嗎?
大資料如何走出實驗室和工程化落地,一是不能閉門造車,模型收斂了就想當然萬事大吉了;二是要走出實驗室充分與業界實際決策問題對接;三是關聯關係和因果關係都不能少,不能描述因果關係的模型無助於解決現實問題;四是注重模型的迭代和產品化,持續升級和最佳化,解決新資料增量學習和模型動態調整的問題。
所以,大資料學習一定要清楚我是在做資料科學還是資料工程,各需要哪些方面的技術能力,現在處於哪一個階段等,不然為了技術而技術,是難以學好和用好大資料的。
-
3 # 加米穀大資料
從零開始學大資料,先關注一些大資料領域的動態。
可以自己找一些程式語言的資料(Java/python,大資料的基礎必備技能)學習,找大資料的基礎影片和書籍,如果覺得自己入門很難,要麼放棄,要麼為自己投資一把,去參加加米穀的大資料培訓班學習。大資料技術涉及內容太龐雜,應用領域廣泛,各領域和方向採用的關鍵技術差異性也會較大,不同的方向重點學習的技術也有一定不同。選擇一個詳細方向。
經過多年的發展大資料在資料採集、資料儲存、資料安全、資料分析、資料呈現和資料應用這條產業鏈上,不同的崗位需要具備不同的知識結構,所以首先要選擇一個適合自己的方向。
學習大資料基礎知識。
大資料開發還是大資料分析方向的崗位,都需要了解相關的基礎知識。大資料的基礎知識包含三大部分,分別是數學、統計學和計算機。
相關:
哪裡學習大資料比較好?大資料入門學習的路徑規劃有哪些?
https://www.toutiao.com/i6574986046033887751/
-
4 # IT麥旋風
談起大資料技術,大多數人都已經不會感到陌生,大資料開發技術蘊含了非常大的價值。就目前的網際網路就業崗位需求來看,大資料開發的人才非常緊缺,大資料行業的就業前景自然是非常廣闊的。
在學習大資料的過程中,重要的一點是我們要找準自己的定位。學好大資料開發時,你需要注意以下幾點:
首先,你要了解一下自己的實際能力水平,然後從容應對以後的學習途徑。在學習中需要更加明白你的目標,你邁向下一步的步伐,在大方向確定後再具體到小細節,不能絲毫馬虎。然後,你需要了解如今的市場行情,需要掌握什麼技能才能找到一份大資料開發的工作,現在公司需要什麼人才,將自己的技能個企業需求匹配,這個就是你學習的一個方向。
最後,你要確定自己的學習方式。如果你想系統學習,可以跟著老師的進度,但也要有自己的計劃,一個系統的學習規劃會讓你的學習更加有序進行。
總結一下就是,你要知道自己每天學習什麼,很多大資料小白在入門階段的時候,興致勃勃,但三分鐘熱度一過,或者遇到了非常棘手的難題,學著學著就放棄了,或者是明明在學習,但是一段時間以後根本不知道自己在學習什麼,這樣非常迷茫一點計劃沒有,肯定是學不會大資料的,所以學習大資料要擺正好心態,有耐心細心一點,要清楚地知道自己每天在學習什麼。
如果你認準了想要在大資料行業進行發展,也為了以後能有個高薪工作,有一個好的發展方向,且對自己樹立良好的自信心好話,建議可以選擇靠譜合適的培訓學校學習,教大資料的學校的話,南京安德門那邊的課工場大資料學院還蠻不錯的,有興趣的可以去看看。加油呀,努力就會有收穫哦!
回覆列表
學"好"大資料,這個感覺東西多,看怎麼去學吧
首先 必備技能看看
一、Hadoop
Hadoop生態系統安裝部署(單機、偽分散式、完全分散式)HDFS及讀寫原理MapReduce V1、V2框架WordCount編碼詳解原理 Mapper、Reducer、Combiner、InputFormat、Writable、ComparableHDFS HA原理、部署資料去重、單表關聯、多表關聯、PageRank、二次排序、倒排索引、TF-IDF二、Hive
Hive安裝與配置Hive 內建運算子與函式開發Hive JDBChive引數Hive 高階程式設計Hive QLHive Shell 基本操作hive 最佳化Hive體系結構Hive的原理三、PIG
pig的概念及優點關係(relation)、包(bag)、元組(tuple)、欄位(field)、資料(data)的關係FLATTEN運算子的作用GROUP運算子資料操作相關多維度組合操作技巧pig指令碼四、 Zookeeper
ZooKeeper安裝配置Zookeeper命令操作構建ZooKeeper應用管理分散式環境中的資料ZooKeeper機制架構一致性原理ZooKeeper伸縮性五、 HBase
Hbase基礎概念hbase資料模型Hbase物理模型Hbase架構Hbase應用六、 Mahout
七、 Sqoop
1、配置Sqoop 2、使用Sqoop把資料從MySQL匯入到HDFS中 3、使用Sqoop把資料從HDFS匯出到MySQL中八、 Cassandra
Cassandra 的資料儲存結構Cassandra 節點的安裝和配置常用程式語言使用 Cassandra 來儲存資料搭建 Cassandra 叢集環境、也是有蠻多的,就上面那張圖可以看看,比較清楚。