根據阿里雲飛天技術總架構師唐洪《飛天技術與應用》(https://yq.aliyun.com/articles/30337)中的介紹:
在開始介紹飛天技術前,唐洪和現場觀眾分享了當初判斷要做雲計算需要解決的三個本質問題,而這三個本質問題決定了飛天系統設計的基本原則。
第一個本質問題,大規模。雲計算本質上是隨著網際網路誕生並且為了解決網際網路的問題產生出來的。根據2012年10月份資料統計,網際網路每天產升2.5EB的資料,並且這個數字每40個月就會翻一番,處理這樣大的資料一定要解決大規模計算的問題。拿淘寶為例,淘寶上每天完成上百億元規模交易,同時要在6小時內(早晨6點以前)完成所有交易資料的統計。當然規模是相對的,但規模增加了時間限制,絕對值本身不是很大資料量的計算在本質上也是大規模計算的問題。
第二個本質問題,低成本。也就是說我們不單要解決規模計算的問題,而且要想辦法讓大家算得起。低成本不單單是簡單的降低價格,而是像電話一樣改變人們的習慣。同時,也能夠像“電網”做到對資源的排程。
第三個本質問題,服務運營。真正能夠提供大規模廉價的計算,唯一的方式是賣計算而不是賣計算機,像公共服務一樣做到按量付費,這對很多創業公司來說是非常有益的。服務運營也意味著彈性擴充套件,當用戶需要使用更多資源的時候可以很快開動資源,而不是等著再跟供應商下單,等計算機運到機房裡。最後,服務運營也要解決安全問題,大家在使用自然資源、在使用雲計算的時候不用擔心安全問題。
正是基於上述對雲計算要解決的三個本質問題的理解,在飛天系統設計開始就定下了兩個基本原則。第一個原則,以大規模通用計算平臺為基礎,用同一套系統支援離線和線上服務,能夠做到資源共享。第二個原則,以Web API的方式提供服務,也就是說希望提供線上服務,而不是到門市部填申請單交銀行卡才能提供服務,讓使用者感覺不到地域的邊界。
飛天最底層是全球部署的12個地區和幾十個資料中心,這些資料中心裡是安裝了Linux作業系統的通用高階伺服器。橙色元件組成了大規模通用計算平臺,最底下四個橙色塊(夸父遠端過程呼叫、安全管理、女媧分散式協同和伏羲資源管理)代表構建分散式系統最基本的元件。唐洪著重指出,在整個飛天設計裡面第一就把安全作為一個功能來設計。盤古分散式儲存,簡單來說,就是把所有叢集中的硬碟組織成一個單個的檔案系統。同時,兩側分別是天基的資料中心管理、分散式部署,以及神農分散式監控。唐洪說,大家覺得部署和監控是很簡單的事,但做成7×24小時不間斷就沒有那麼容易了,這時需要非常大的監控系統,秒級監控所有指標判斷是否有問題並且實時修復。
中間藍色一層是核心的資源型服務元件,大概分為三類:一是彈性計算,簡單理解就是將物理機切分成虛擬伺服器的概念。二是海量儲存的資料庫,其中OSS是儲存無結構的資料比如影片、照片、音樂之類的,Table Store可以認為是半結構化儲存,RDS則是關係型資料庫服務。第三類是資料計算,它則分為多維度準實時資料的查詢服務、實時流計算處理服務和大規模批次計算服務。
在上面還有一些端到端、基於雲的應用所需要的核心服務,比如內容分發CDN、網路服務、安全服務、資料服務等。網路服務,包括VPC、域名服務和VPN。中介軟體服務,包括訊息佇列、工作流等。資料服務,則包括比如人工智慧、語音識別、翻譯、圖象識別之類。
最上層則是生態支撐,容器服務可以支援那些基於容器的微服務架構,或者是編排服務幫助開發者在雲上開展資源的編排。還有云市場,可以認為是雲上的AppStore,開發者可以把他們的應用註冊在雲市場裡面,使用者直接註冊使用。還有開發者服務,開發者很容易監控診斷他們的應用並且發現問題和除錯。
談到飛天的技術特色,共六個方面。其中第一點,飛天同一個平臺同時支援離線線上服務,這是飛天的通用性特色。如阿里巴巴集團子公司神馬搜尋就是建在飛天上,他們會進行千億級別網頁的離線處理,索引所有網頁,大概每一兩個月把整個索引翻一遍,此外擁有這麼多網頁的同時同樣擁有整個網頁之間關聯的連線圖,也是千億級別的節點,並且有百億級別的索引可以線上查詢;線上方面,基於飛天平臺的郵箱服務每天處理億量級的郵件,日傳送郵件達到千萬量級,所有傳送和接收在10毫秒級別完成。
其他幾點包括:規模,飛天單叢集達到了萬臺規模、百PB級別儲存、10萬級別的CPU合數;整個架構設計裡面沒有單點,確保了整個系統可用性達到99.95%;飛天應用設有預設等級,透過多副本冗餘演算法,資料可靠性達到10個9的可靠性;完全分散式的部署、監控和診斷。關於第六點安全方面,唐洪指出,飛天安全管理嵌入在飛天核心最底層,並且使用基於權能的安全管理框架,真正有效實施“最小化許可權”原理。
2013年8月15號,阿里巴巴集團已經擁有了中國範圍最大的叢集,達到五千臺規模。現在,飛天已經成為阿里巴巴所有核心業務資料處理的平臺,包括廣告、搜尋、個性化推薦、信用分析、風險管理等,並且飛天現在已有多個萬臺規模的叢集,每天處理上百PB資料。
2014年7月1號MaxCompute(原ODPS服務)正式對外開放,這也標誌著阿里巴巴成為世界上第一家對外公開提供5K處理能力的公司。很多公司可能有這樣一個計算能力但從來沒有把它當作公共服務開放給大家。在MaxCompute平臺上線之前,組織了一場“天池大資料演算法大賽”,當時有七千多個團隊,主要是高校團隊報名參加,在沒有任何推廣的情況下還有350多個來自海外的團隊。
2015年10月,飛天打破了世界排序競賽的記錄,當時打破了4項,最有名的是用377秒完成100TB排序工作。之前這個成績是1400多秒,也就提高了三倍還不止。
根據阿里雲飛天技術總架構師唐洪《飛天技術與應用》(https://yq.aliyun.com/articles/30337)中的介紹:
飛天設計原則在開始介紹飛天技術前,唐洪和現場觀眾分享了當初判斷要做雲計算需要解決的三個本質問題,而這三個本質問題決定了飛天系統設計的基本原則。
第一個本質問題,大規模。雲計算本質上是隨著網際網路誕生並且為了解決網際網路的問題產生出來的。根據2012年10月份資料統計,網際網路每天產升2.5EB的資料,並且這個數字每40個月就會翻一番,處理這樣大的資料一定要解決大規模計算的問題。拿淘寶為例,淘寶上每天完成上百億元規模交易,同時要在6小時內(早晨6點以前)完成所有交易資料的統計。當然規模是相對的,但規模增加了時間限制,絕對值本身不是很大資料量的計算在本質上也是大規模計算的問題。
第二個本質問題,低成本。也就是說我們不單要解決規模計算的問題,而且要想辦法讓大家算得起。低成本不單單是簡單的降低價格,而是像電話一樣改變人們的習慣。同時,也能夠像“電網”做到對資源的排程。
第三個本質問題,服務運營。真正能夠提供大規模廉價的計算,唯一的方式是賣計算而不是賣計算機,像公共服務一樣做到按量付費,這對很多創業公司來說是非常有益的。服務運營也意味著彈性擴充套件,當用戶需要使用更多資源的時候可以很快開動資源,而不是等著再跟供應商下單,等計算機運到機房裡。最後,服務運營也要解決安全問題,大家在使用自然資源、在使用雲計算的時候不用擔心安全問題。
正是基於上述對雲計算要解決的三個本質問題的理解,在飛天系統設計開始就定下了兩個基本原則。第一個原則,以大規模通用計算平臺為基礎,用同一套系統支援離線和線上服務,能夠做到資源共享。第二個原則,以Web API的方式提供服務,也就是說希望提供線上服務,而不是到門市部填申請單交銀行卡才能提供服務,讓使用者感覺不到地域的邊界。
圖解飛天架構飛天最底層是全球部署的12個地區和幾十個資料中心,這些資料中心裡是安裝了Linux作業系統的通用高階伺服器。橙色元件組成了大規模通用計算平臺,最底下四個橙色塊(夸父遠端過程呼叫、安全管理、女媧分散式協同和伏羲資源管理)代表構建分散式系統最基本的元件。唐洪著重指出,在整個飛天設計裡面第一就把安全作為一個功能來設計。盤古分散式儲存,簡單來說,就是把所有叢集中的硬碟組織成一個單個的檔案系統。同時,兩側分別是天基的資料中心管理、分散式部署,以及神農分散式監控。唐洪說,大家覺得部署和監控是很簡單的事,但做成7×24小時不間斷就沒有那麼容易了,這時需要非常大的監控系統,秒級監控所有指標判斷是否有問題並且實時修復。
中間藍色一層是核心的資源型服務元件,大概分為三類:一是彈性計算,簡單理解就是將物理機切分成虛擬伺服器的概念。二是海量儲存的資料庫,其中OSS是儲存無結構的資料比如影片、照片、音樂之類的,Table Store可以認為是半結構化儲存,RDS則是關係型資料庫服務。第三類是資料計算,它則分為多維度準實時資料的查詢服務、實時流計算處理服務和大規模批次計算服務。
在上面還有一些端到端、基於雲的應用所需要的核心服務,比如內容分發CDN、網路服務、安全服務、資料服務等。網路服務,包括VPC、域名服務和VPN。中介軟體服務,包括訊息佇列、工作流等。資料服務,則包括比如人工智慧、語音識別、翻譯、圖象識別之類。
最上層則是生態支撐,容器服務可以支援那些基於容器的微服務架構,或者是編排服務幫助開發者在雲上開展資源的編排。還有云市場,可以認為是雲上的AppStore,開發者可以把他們的應用註冊在雲市場裡面,使用者直接註冊使用。還有開發者服務,開發者很容易監控診斷他們的應用並且發現問題和除錯。
飛天技術特色談到飛天的技術特色,共六個方面。其中第一點,飛天同一個平臺同時支援離線線上服務,這是飛天的通用性特色。如阿里巴巴集團子公司神馬搜尋就是建在飛天上,他們會進行千億級別網頁的離線處理,索引所有網頁,大概每一兩個月把整個索引翻一遍,此外擁有這麼多網頁的同時同樣擁有整個網頁之間關聯的連線圖,也是千億級別的節點,並且有百億級別的索引可以線上查詢;線上方面,基於飛天平臺的郵箱服務每天處理億量級的郵件,日傳送郵件達到千萬量級,所有傳送和接收在10毫秒級別完成。
其他幾點包括:規模,飛天單叢集達到了萬臺規模、百PB級別儲存、10萬級別的CPU合數;整個架構設計裡面沒有單點,確保了整個系統可用性達到99.95%;飛天應用設有預設等級,透過多副本冗餘演算法,資料可靠性達到10個9的可靠性;完全分散式的部署、監控和診斷。關於第六點安全方面,唐洪指出,飛天安全管理嵌入在飛天核心最底層,並且使用基於權能的安全管理框架,真正有效實施“最小化許可權”原理。
2013年8月15號,阿里巴巴集團已經擁有了中國範圍最大的叢集,達到五千臺規模。現在,飛天已經成為阿里巴巴所有核心業務資料處理的平臺,包括廣告、搜尋、個性化推薦、信用分析、風險管理等,並且飛天現在已有多個萬臺規模的叢集,每天處理上百PB資料。
2014年7月1號MaxCompute(原ODPS服務)正式對外開放,這也標誌著阿里巴巴成為世界上第一家對外公開提供5K處理能力的公司。很多公司可能有這樣一個計算能力但從來沒有把它當作公共服務開放給大家。在MaxCompute平臺上線之前,組織了一場“天池大資料演算法大賽”,當時有七千多個團隊,主要是高校團隊報名參加,在沒有任何推廣的情況下還有350多個來自海外的團隊。
2015年10月,飛天打破了世界排序競賽的記錄,當時打破了4項,最有名的是用377秒完成100TB排序工作。之前這個成績是1400多秒,也就提高了三倍還不止。