首頁>科技>

在2020年中,據不完全統計:微軟商業雲服務、Google雲、華為雲、Adobe Creative Cloud、IBM Cloud、蘋果iCloud和亞馬遜雲AWS共計七個公有云服務提供商相繼出現故障或宕機情況。

年度熱點話題03

七個公有云廠商相繼出現故障或宕機,

“世上沒有不宕機的雲”

公有云服務平臺出現這樣那樣的問題,再次對公有云服務帶來了考驗。從另一個側面也說明,在解決問題的過程中,也再一次提升了公有云服務的品質。屢敗屢戰,堅韌不撥,這也是公有云從十年前到今天,逐漸壯大,成為百行百業最強音的發展之道。

這其實對於雲服務平臺而言,這裡指公有云服務,每年都會遭遇這樣那樣的故障,這些故障有的是人為原因,有的是機器故障,有的是軟體bug……等等原因彙總的結果,就是相關雲平臺上的客戶遭殃。或丟失資料,或停止服務,或影響創新。業內人士戲言:“世上沒有不宕機的雲。”

如果想在這個事情上獲得解決辦法,業內人士指出,唯有災備。但是對於一個公有云平臺而言,一旦部署完備的災備,那麼每隔一段時間就需要流程化的演練,就像軍事演習一樣。這樣才可以未雨綢繆,在遭遇問題的時候,得到業務與資料的快速恢復。

然而,即便真的部署了完備的災備中心與之雲服務匹配,這還不夠。因為雖然系統和軟體可以實現自動化實現更好的智慧監測報警之類,可是對於災備來說,還需要在演練的同時,保持良好的災備策略包括自動化的策略與人工監督的策略。

畢竟最終的實現,還是需要人為來確定,特別是針對報警情況,如果人為不做硬體更新、不做bug的最佳化、不做多副本的快照等等,只是靠日誌,不能真正實現所有故障情況下的備份恢復。

可見災備對於公有云廠商來說,看似簡單的靠公有云分散式的架構,異地中心的災備,或者多副本的保障,但更多的考慮卻需要一個全面的策略,包括自動化智慧機制和人工監督的科學流程。

2020年3月3日,微軟位於美國東部的資料中心發生了服務中斷,持續六小時,導致美國北部的客戶無法使用Azure雲服務。

2020年3月16日,微軟Teams平臺湧入了大量新使用者,導致該服務在歐洲地區出現了持續2個小時的宕機。

2020年3月24日-26日,微軟Azure Pipelines發生故障,嚴重影響DevOps團隊使用的持續交付服務,軟體開發人員受到的影響特別大。

2020年3月26日,Google多個雲服務出現無法訪問的問題。Google使用者稱遇到了Google 500錯誤程式碼(因內部錯誤導致請求失敗)和502錯誤程式碼(網關出現故障)。Google將這次故障歸咎於“基礎設施元件”問題。

2020年4月8日,Google Cloud身份和訪問管理(IAM)API出現故障。這次故障從美國東部時間上午10:35開始,持續了不到90分鐘,導致多個Google服務中斷,包括App Engine、Cloud Functions、BigQuery及其核心Compute Engine IaaS。

2020年4月10日,華為雲出現大面積宕機,華為雲登入、管理後臺無法訪問,部分公司業務無法正常維持。本次宕機持續約三小時。

2020年4月21日-23日,微軟旗下GitHub發生了多次宕機。4月21日,多個GitHub服務出現訪問異常,持續了一個半小時。4月22日,服務再次出現中斷,持續時間至少兩小時。4月23日,多個GitHub服務也遇到了各種問題的影響,持續了近三小時。

2020年6月9日,IBM Cloud遭遇了重大宕機故障,平臺上託管的多項服務也因此中斷,其中就包括知名科技新聞聚合網站 Techmeme。本次宕機事件從下午2點30分左右開始,並快速蔓延至全球,在下午6:30之後報告稱一系列問題已經得以解決。本次宕機持續約四小時。

2020年8月6日,蘋果公司的系統狀態(System Status)頁面顯示,部分使用者無法使用其某些服務,蘋果遊戲中心、iCloud服務遭遇最新故障。

2020年8月14日,來自華為訊息稱,華為雲香港機房製冷裝置出現異常。工程師已經定位了潛在原因,並及時處理恢復。

2020年9月29日,Microsoft Office 365辦公軟體和Azure雲產品出現故障,導致部分使用者服務中斷數小時,故障涉及Outlook電郵服務和Teams辦公協作工具的部分使用者。

2020年10月8日,微軟公有云美國區域的Azure服務出現了約一個小時的問題。微軟在其狀態頁面上寫道,北美區域訪問微軟或Azure服務(包括Azure政務服務)可能遭遇問題,正在調查。

2020年11月25日,亞馬遜公有云服務Amazon Web Services(AWS)遭遇了持續數小時的故障,導致部分網站和服務系統崩潰,影響Adobe、Roku等服務。隨後亞馬遜AWS在其官方的服務健康報告頁面也更新了最新狀態,稱美國US-EAST-1地區的Kinesis Data Streams API出現故障,導致客戶無法寫入和讀出釋出至Kinesis streams的資料,並影響更新網站頁面的能力,已著手緊急修復。

2020年12月15日,Google伺服器突然遭遇全球大面積故障。在宕機的45分鐘內,谷歌旗下的多項服務無法訪問,包括Gmail郵箱,谷歌日曆、影片網站YouTube等熱門應用均受到嚴重影響,而這已經是谷歌全年第四次宕機。(by Aming)

每 一 年 啊,都需要捋一下,總結總結,砥礪奮進再出發。2020,這一年,更值得回頭看看……

不過,要看懂某一年的雲計算發展情況,在全球雲觀察看來,需要基於一個更長的時間維度,再結合本年度的情況,這樣的回顧盤點才更有參考意義。

《這就是2020:全球雲計算十一大年度話題盤點》也就如此照辦了。

- END-

都看到這裡了,加個關注吧!

5
最新評論
  • 整治雙十一購物亂象,國家再次出手!該跟這些套路說再見了
  • Oasis Lab協助AI初創團隊打造私人定製化AI助手