為什麼在別人都使用開源大資料技術時，阿里雲王堅卻堅持自主研發Max Compute？

首頁>Club>使用者605421540692021-03-07 11:02

為什麼在別人都使用開源大資料技術時，阿里雲王堅卻堅持自主研發Max Compute？

十年前，雲計算、大資料的概念剛剛在中國萌芽，很多企業還在使用開源技術，而王堅卻帶領著阿里雲團隊開始自主研發大資料計算平臺MaxCompute，最終打造了“飛天” 的神話。為什麼阿里雲能夠敢為人先，王堅從中起到了什麼作用？阿里云為什麼走了一條不一樣的路？

回覆列表

1 # 彼得羅829

很簡單，因為開源的產品支援不了阿里的體量，很多開源中介軟體在阿里都是被修改過的，以便更好的支援阿里的業務。比如Oracle，就算你部署的再好，最佳化的再好任然不能滿足業務需求，一晚上連張報表都跑不出來。雲也是一樣，管理5000個節點都管理不好，有怎麼支援後續的業務呢

2 # 莫折念生

前幾年主流的開源雲架構主要就是openstack，從架構上看，這實際上就是一個python工具箱和erlang訊息佇列混搭的萬能方案，其叢集管理能力基本上就是erlang/otp的分散式能力。
雲計算所涉及的主要問題，erlang實際上在2003年開源之前就已經解決了，而且，對這些問題的研究，在上個世紀八十年代日本人吹噓要搞新一代計算機架構時，愛立信就開始了，erlang就是為此而生的。
3 # anyue80

還是習慣稱為odps，感覺阿里雲要自建，主要是為了彈性計算和大資料量上需求，由於需求比較特殊和迫切，因此開源套件很難適配，所以透過odps，ads和datahub的組合，滿足淘係數據的多場景應用。

4 # 機器不會學習

重複造了一個輪子吧。如果說創新應該提一下google,大資料的一套應該是google搞起來的,big table,gfs,mapreduce都是開山之作。
5 # 關注black科技

大家都知道，國內的科技企業雖然多，發展也很蓬勃，但擁有自主研發技術，還堅持了好多年的企業實在是太少了。在最初幾年裡，阿里雲在集團內部表現並不突出，技術上艱難，商業上也看不到可能性，如今讓眾人刮目相看了吧

6 # 今後的昨天

晶片脖子上的那道血痕，永遠警示著每一個華夏兒女：不自主研發，就會受制於人，就永無安寧之日。而云計算是比晶片更重要的存在，它是中國未來社會的水電煤，特別是在今天這個政府積極擁抱雲計算大資料的時代
7 # 君有嘉儀11

可以說，將核心技術掌握在自己手裡的阿里雲不僅在國內雲市場常年穩居第一的市場份額，也透過基於飛天的應用在各行各業迎來了大爆發。阿里云為天貓構建了全球最大規模的混合雲，沒有自研的飛天是無法做到的。

8 # 一個退休的老者

我覺得，王堅在阿里雲的發展過程中，就像是大海航行中的舵手一樣，引領阿里雲不斷前進。

不得不說，王堅是非常有遠見的，他很早就意識到了只有自主研發的重要性，所以堅持要走自主研發的道路。

早在2007年，阿里巴巴就面臨著非常嚴峻的考驗，因為系統無法滿足集團不斷增長的資料處理需求，於是阿里巴巴從微軟亞洲研究院招來王堅博士，解決整個集團的算力問題。
當時，市面上基於開源技術的Hadoop叢集，在可控性、安全性上存在隱患，可提供的服務也有很大的侷限性。雖然當時大家都在用Hadoop叢集，但王堅清楚地認識到了其規模的侷限，決定要自主研發一套大資料計算系統，也就是MaxCompute。

自主研發的道路上肯定會面臨不少困難，但當時無論是基於Hadoop搭建的大資料系統還是自研的大資料計算平臺，都未能跨越5K 的叢集規模的大山。

經過不懈努力，在2013年8月，王堅終於帶領團隊解決了這個難題，不僅讓新的基於飛天5K的MaxCompute生產叢集規模達到5000，還實現了跨機房，並經受了整機房斷電的嚴苛考驗。

這也意味著，阿里成為了世界上為數不多具備5K計算能力的公司。更重要的是，阿里還成為了業界首家對外提供5K計算能力的公司。
現如今，作為單叢集超過1萬臺伺服器，資料規模更是達到EB級的大資料計算平臺，MaxCompute已經成為全球領先的大資料計算平臺。

阿里巴巴集團的核心業務都是由MaxCompute提供支撐。同時，阿里雲還將這種大資料處理能力對外開放，讓小型公司只需要花幾百元就可以分析海量的資料。
9 # 大學生程式設計指南

阿里雲已經成為阿里巴在科技領域有一個奇蹟，當然奇蹟背後必定有太多的艱辛，不完全是身體上的，還有精神上承受的壓力，畢竟這個系統不是簡單的靠人員的整合式開發就能短時間搞定，所以在前期受到非常大的質疑也屬於很正常的範疇，恰逢大資料還在炒概念的階段，馬雲拍板投入數十億開始研發，據後來解密當初阿里巴巴內部分成了兩個派系，支援阿里雲的研發，堅決反對阿里雲的開發，甚至在阿里巴巴內部有人直接提出質疑王堅能不能寫上一行程式碼。
整體集團內部瀰漫著對阿里雲研發進度的不信任，甚至很多人喊出來王堅是在騙馬雲的錢，種種才猜測，王堅在2012年的年會上落淚的影片在網上還能搜到，足以說明當時承擔的壓力有多大，但王堅還是如同他的名字一樣堅強的挺過來了，現在阿里雲的全球市場份額佔到第三，並且完全實現了技術上的自主研發，並且真正突破了傳統意義上的5K技術，備受質疑主要在當時的網際網路環境下拿出這麼多錢來燒段時間內不能見效，那個階段是網際網路高度的紅利期，投入就要見到產出的年代，所以環境的因素很重要，不得不佩服馬雲的決斷力，如果沒有當初資金源源不斷的投入不可能有今天的阿里雲技術，也算是國內科技企業裡面為數不多自主研發的技術產品。

王堅加入阿里正好是阿里技術瓶頸期的時候，業務能力快速的發展，技術能力能不能跟得上都是未知數，整個來講王堅很好的完成了這一使命，其實換個思路來看這個問題，如果不是王堅可能還會有下一個李堅出來做這個事情，畢竟公司的巨輪會一直向前發展，而王堅恰好出現在合適的時機並且把這個事情乾的非常漂亮，但在具體如何去做的時候，王堅的決斷力卻是非常的勇敢，在嘗試了開源的大資料之後發現根本不可能完成任務，於是果斷開始自主研發，與其說是自動主張倒不如說成是被逼的，強大的壓力下產生無盡的動力，任何有技術含量的東西大家開始都不會太認可，如同開始大家在網上購物都會覺得可能是騙子，萬一我交錢了對方不發貨怎麼辦，看看現在購物的人很少擔憂這個事情發生，整個社會的價值觀已經高度認可這件事情。
阿里也是在阿里雲有了突破之後開始更加註重人才的培養，並且搞了個達摩院收集全球優秀的科學家一起以企業的方式產生各種創新技術，可以遇見未來阿里會帶給華人更多的技術突破，未來就是人才競爭的時代，誰擁有足量多的人才誰就能有更多的話語權，隨著國內軟體氛圍進一步提升，相信也會有更多自主性的技術產生。

其實對於王堅來講更應該感謝阿里決策層的堅決支援，玩雲計算沒有足量的資金支援不可能做出個樣子，而王堅很好的做出了表率，最近也看到王堅離開了阿里雲，事情的真假不是很清楚，對於個人來講已經在人生的道路上，增添了濃厚的一個色彩，至於後續是不是能夠繼續執掌阿里雲其實這都不是其個人要談的事情，這已經是阿里高層來決定的。

作為一個技術人員還是非常佩服王堅在如此壓力下，還能保持清晰的頭腦做出大膽的決定，並且把技術落地，也證明了一件事，中國的軟體人才一樣能做出讓世界矚目的事情，無形之中也增強自己的信心，對於阿里堅持自我研發道路確定更強的信心。

10 # ACME63610374577

他要麼不懂大資料.要麼很懂大資料...

...

1.大資料的流程是：先確定結果.再收集資料.最後根據結果和資料選擇計算方法...

...

這個道理很簡單吧....

我們以印度為例...印度總理要求2017年印度增長率要高於中國.也就是7%左右.也就是大資料的最終算出的結果先確定好...之後是手機資料.什麼地攤.牛糞都做估價...之後按照GDP一算還是不如中國高...那就換一種演算法用PPP..這樣就達到7%了...這樣所有印度人民包括總理都誇你算的準...
...

國際之間都這麼玩...就更別提各種企業了...

...

一定要記住大資料是輔助決策.而不是指揮決策...你的工作是用大資料證明領導的決策對.而不是告訴領導該怎麼做...領導不需要你告訴他怎麼做...怎麼做是他的自由.他的愛好...你教他怎麼做那就是觸動逆鱗了...

...

2.大資料的特點是什麼？

a.資料量特別大.無法追溯驗證.

c.資料演算法多.正確性無法驗證.

總之.大資料的特點就是無法追溯驗證...

這也是大資料強於傳統統計的優勢...

因為傳統統計是抽樣.理論實際非常準確...

大資料是全量.理論上比抽樣準確...
實際上操作空間極大...

我們其實不需要準確的統計...

這個道理很簡單吧...

...

3.由此我們就明白一件事...

大資料和Hadoop Spark啥的有關係麼？

毫無關係...

Hadoop Spark只不過是大資料PPT上一個角落裡非常不重要的兩個詞...

...

大資料其實根本就不需要任何專業工具計算！！！

Excel足矣...

...

a.他可能不懂大資料.所以痴迷於工具..

b.他可能很懂大資料.知道工具沒用.所以自己瞎編一個.聽起來很牛逼的樣子.

c.我也釋出一個大資料工具.MinCompute.也是我幾分鐘辛勤耕耘編寫的.你也來一個.不就起個名麼.你也可以的...
11 # Lake說科技

阿里堅持自主研發 Max Compute 技術，而不是使用開源大資料技術，個人認為原因有三點，一是阿里雲既然未來要做雲計算，那就要和其他公司要有技術優勢以及技術壁壘，這樣才能競爭過其他的公司。

二是完全依靠大資料開源技術有一定缺陷，開源大資料技術無法全部滿足阿里內部真實需求，技術上未來也很難滿足。
三是為了打造適合阿里業務場景以及中國網際網路公司的雲計算平臺，自己掌握核心技術，便於未來的技術擴充套件和功能迭代開發。
01想要將雲計算做大，必須要有自己的核心技術優勢，如果阿里使用開源大資料技術，那麼和其他公司技術差異就很小。
雲計算不僅僅是國內網際網路公司在做，同時在國際上，也有很多厲害的雲計算公司，比如亞馬遜、Google、微軟等等，而國內有百度、騰訊也在做。

開源大資料技術由於開源性，每個公司都可以對其使用，如果你基於開源大資料技術來做雲計算，大家都能夠使用大資料開源技術，你的大資料產品和開源大資料元件類似，那你怎麼能夠吸引其他公司使用你的雲計算產品呢。
如果你沒有自己的核心技術，其他公司肯定更願意使用開源大資料技術，這樣更能降低其成本。所以阿里自研 Max Compute，充分的展示其前瞻性。這樣也有了自己的核心技術，尤其是對於雲計算來說，在某些場景，對於其他公司才更有吸引力。
02開源大資料技術雖然資料體量以及叢集機器數目的上升，也會有一定缺陷。
開源大資料技術本身有一定技術缺陷，這種技術缺陷可能在小的業務場景是無法復現的，但是一旦資料體量上來之後，可能就會有很多未知的問題，阿里也不敢將自己的核心業務執行在其上。

比如 Hadoop 叢集來說，對於 HDFS 分散式檔案系統，主要採用主從架構設計，NameNode是主節點，內部有很多元資料儲存在記憶體中，DataNode是從節點，主要用來儲存資料。由於 NameNode 記憶體中儲存 DataNode以及檔案塊的對映的元資料，當機器規模以及資料體量非常大時，NameNode 如果掛掉整體恢復速度會非常慢，這就可能影響到線上業務。所以阿里自研 Max Compute ，在開發的時候，也考慮和解決了一些這些技術問題，使得大資料平臺更加穩定。
03個人想法
個人之前使用過 MaxCompute，雖然阿里自研 MaxCompute，但整體的使用和程式碼開發還是和開源大資料元件進行相容。比如你在上面開發一個離線的任務，整體的程式碼其實和 Hive 的程式碼非常類似，這使得其他原來使用 Hive 的數倉同學，也能夠快速的使用 MaxCompute進行研發。

所以阿里在自研的同時，也考慮到和開源大資料技術保持相容性，也吸收了開源大資料技術優點，並不是完全閉門造車。取開源大資料技術之精華，對其不好的地方透過自研技術進行解決，這點阿里雲做的還是很贊。

∧ 中秋節和大豐收的關聯？

∨ 本人有潔癖，假如有一天父母老了不能自理，出錢僱保姆照顧他們，會被說不孝順嗎？

熱門排行

劇多

為什麼在別人都使用開源大資料技術時，阿里雲王堅卻堅持自主研發Max Compute？