-
1 # 樂動音符
-
2 # DeepThink
本人在阿里,百度做過大資料相關工作。
網際網路公司大資料基本是時時刻刻發生的,分為計算和儲存兩個領域。一般外行只知道hadoop spark這些開源框架。其實要實際應用,還必須掌握分散式理論,分散式計算,分散式儲存這些基本技術,然後熟悉計算,儲存的開源專案,多看原始碼,看看別人是怎麼實現這些分散式理論的,這就入門了。
談到成為架構師,得非常熟悉各種框架,自己深入理解各種理論,非常熟悉各種應用場景,那麼你離大資料架構師就不遠了。
技術選型,技術攻堅,業務落地。這基本就是架構師應該在網際網路公司應該拿的住的事兒了。
-
3 # 科技大咖的Vitamin
大資料的概念是指單臺計算機的運算能力和儲存能力不能夠支撐的資料量,一般要達到10-100TB通常稱為大資料的門檻。
大資料常用的方案這裡介紹幾種對實時性和持久化等有不同需求的場景的方案:
指標
1. 延時 , 指資料從產生到運算產生結果的時間,“快”應該主要指這個。
2. 吞吐, 指系統單位時間處理的資料量。
有持久化需求且對實時性要求指標不太高的方案:
spark + hadoop
Spark是這樣處理資料的,當資料龐大時,把計算過程傳遞給資料要比把資料傳遞給計算過程要更富效率。每個節點儲存(或快取)它的資料集,然後任務被提交給節點。
所以這是把過程傳遞給資料。這和Hadoop map/reduce非常相似,除了積極使用記憶體來避免I/O操作,以使得迭代演算法效能更高。
對實時性要求高的方案:
Twitter Storm
Storm是一個分散式流計算引擎。每個節點實現一個基本的計算過程,而資料項在互相連線的網路節點中流進流出。Storm是隻要接收到資料就實時處理並分發。
學習過程學習大資料時建議先學習好關係型資料庫,因為很多大資料最後的計算結果都要回流到關係型資料庫。而一般在做大資料時都會用到hbase或hvie的需要,那麼對於如何最佳化非關係型資料庫的二級索引的問題也必須要學習。
-
4 # 東風高揚
如何快速的成長為一名優秀大資料架構師?成為優秀的大資料架構師,沒有捷徑之說,要說快的話也就是在基礎知識紮實的前提下,儘可能經歷更多的練習和專案,學習儘可能多的相關知識。絕大部分優秀的專業人員基本上都是在學習和專案中鍛煉出來的。
大資料架構師職責:
1、 基於大資料基礎和資料資產積累,負責大資料應用整體技術架構的設計、最佳化,建設大資料能力開放平臺;負責大資料應用產品的架構設計、技術把控工作。
2、 負責制定大資料應用系統的資料安全管控體系和資料使用規範。
3、 作為大資料技術方案到產品實現的技術負責人,負責關鍵技術點攻堅工作,負責內部技術推廣、培訓及知識轉移工作。
4、 負責大資料系統研發專案任務規劃、整體進度、風險把控,有效協同團隊成員並組織跨團隊技術協作,保證專案質量與進度。
5、 負責提升產品技術團隊的技術影響力,針對新人、普通開發人員進行有效輔導,幫助其快速成長。
從其職責就可以看出,大資料架構師不但要有技術,還要有一些管理及培訓的能力。從其技術來看,主要要涉及到:1、大資料常用的處理平臺,比如:Spark、Flink、Hadoop;2、分散式儲存,比如:HDFS;3、資源排程,比如:Yarn、Mesos;4、機器學習工具;5、資料分析/資料倉庫,SQL類比如:Pig、Hive、kylin、Spark SQL、Impala、Phoenix、ELK等;6、訊息佇列,比如:Kafka、ZeroMQ、ActiveMQ、RabbitMQ等等;7、流失計算,比如:Store/JStorm、Spark Streaming等;8、日誌收集,比如Scribble、Flume等;9、程式語言,比如:Java、Python、R、Ruby、Scalable等;10、資料分析挖掘,比如:MATLAB、SPSS、SAS等;11、資料視覺化,比如:R、D3.js、Echarts、Excel等;12、機器學習基礎及工具;13、演算法等;雲計算,比如雲服務:Saas、Paas、IaaS、Openstack等,當然還有一些相關的知識。
除了上述技術以外,在實際的工作中很多的大數架構師又要承擔一部分專案管理的職能,以及培訓新人指導新人的職能。所以這個工作其實要求還是蠻高的,但就以上的技術問題要達到優秀的程度,從學習到實際工作經驗,都是要花相當長的時間的。
但身處的環境不一樣,經歷的東西不一樣,成長的速度就不一樣。在一個高強度滿負荷的工作環境中,實戰經驗比較足,如果再加上自己主動把基礎知識搞紮實,成長速度就很驚人。也許3、4年時間就可以達到一個相當的高度。但如果工作上學習上都懶懶散散,那就很難說了。
所以要想快速成長,都會經歷高強度的學習和實戰,再加上多看看別人的產品見多識廣,那麼要想快速變得優秀就是水到渠成了。
-
5 # 科飛貓科技公社
近幾年我們常常聽人說起AI人工智慧、大資料等新興行業。隨著這些行業的發展,國內的大資料架構師肯定會短缺。如果有條件,現在開始學習大資料,將來肯定很吃香。那麼,如何才能成為一名優秀的大資料構架師呢?
大資料分析,一定要掌握機率統計學的知識,並熟悉資料分析工具的使用。比如MATLAB,它的功能非常強大,但是也很難用。筆者看過同事使用,根本看不懂。
筆者建議,入門的時候先從資料庫開始學起,逐步地熟悉資料建模。值得一提的是,如感覺資料建模比較難掌握,就要從高數中統計與分析學起。
最後就剩練習了,畢竟大資料分析中經驗是非常重要的。當你的分析結果越來越靠近最優解的時候,離你的目標就不遠了。相信只要肯下功夫,三年內小有所成還是不成問題的。
-
6 # 食傷生財
首先要有紮實的計算機功底和應用數學功底!其次至少精通一門程式語言,python 入門最快!然後系統學習hadoop,spark,hadoop是基礎!搞多臺計算機,組成網路,或者多搞幾個虛擬系統,這樣就把網路實驗環境搭好了!然後安裝配置hadoop,spark. 然後處理大量資料,平行計算!這裡僅僅拋磚引玉,成為大資料架構師,不是一天兩天能做好的,需要下大功夫的!有疑問可以多溝通!謝謝!
-
7 # EbetA
首先要有紮實的Java基礎 多執行緒 高併發 中介軟體 sdk 訊息佇列 這些基本的要精通
更多的是基於低一點 怎麼去和業務場景結合 面相業務開發 hadoop spark flink kafka elk etl 進行工具的應用開發 怎麼結合場景多級分配業務流 service 呼叫方式等等
最後是總體架構前瞻性 需要面面俱到
回覆列表
謝謝邀請!首先一個大資料架構師,最起碼要熟悉H adoop Spark Storm等等主流大資料平臺的核心框架,而且要深入掌握如何編寫MapReducYarn HBase Hive pig 等等重要元件,能夠實現對平臺的監控。輔助運維護系統的開發。另外,需要對面向過程,面向物件,面向服務等設計理念要有深刻的理解,可以做到快速的察覺出現實中的問題並提出相應的改進方案。
在技術能力上架構師需要掌握包括程序內通訊 物件訪問 高數呼叫 資料交換 執行緒同步等等,以及程序外技術,如RMI DCOM WebSevice