3月3日凌晨,阿里云突發(fā)大規(guī)模宕機故障,波及華北地區(qū)諸多互聯(lián)網(wǎng)企業(yè),企業(yè)的APP、網(wǎng)站全部癱瘓。因為事發(fā)時間為半夜,有網(wǎng)友戲稱“一大波程序員小哥哥、運營小姐姐被迫從溫暖的被窩爬出來,迎著5級大風走進北方透骨奇寒的夜。”對于宕機原因,阿里云官方回應稱“華北2地域可用區(qū)C部分ECS服務器等實例出現(xiàn)IO HANG,后經(jīng)緊急排查處理后逐步恢復。”
此次事件以阿里云給出賠償方案而告終,但留給人們的思考卻在持續(xù)——隨著云服務應用領域愈發(fā)廣泛,云廠商一次短時宕機事故,產(chǎn)生的影響也是空前巨大的,金融術語“雞蛋不要放在一個籃子里”放在云領域是否也廣泛適用?如何減少因為云服務的不確定性對業(yè)務造成的影響?“多云戰(zhàn)略”究竟有多大價值?下面我們來展開討論。
當宕機無法預估,降低風險將成為常態(tài)
據(jù)不完全統(tǒng)計,阿里云近年來幾乎每年都有發(fā)生較為嚴重的宕機事件:2012年10月30日,由于電力故障,阿里云部分服務器30余分鐘無法正常訪問;2013年1月23日,阿里云發(fā)生網(wǎng)絡系統(tǒng)故障,OSS服務無法正常進行,故障持續(xù)長達6小時。2014年11月14日,阿里云杭州可用區(qū)D網(wǎng)絡故障;2015年9月1日,因云盾升級觸發(fā)bug,導致文件被系統(tǒng)誤刪;2016年7月6日,阿里云北京機房內(nèi)網(wǎng)發(fā)生故障,導致大量互聯(lián)網(wǎng)公司業(yè)務受到影響;2018年6月27日,阿里云出現(xiàn)大規(guī)模訪問異常……
作為行業(yè)老二的騰訊云,近年來并未好到哪里去。2016年7月30日上午,有不少微信用戶投訴,稱無論是重啟手機、卸載重裝、清空內(nèi)存等動作,都無法登陸賬號,對此騰訊回應稱,確系騰訊云發(fā)生故障。2017年5月24日,有用戶反應稱賬號下的機器受到大流量DDOS攻擊被封號。隨后騰訊云發(fā)布道歉公告稱”用戶所受到的實時攻擊已經(jīng)超出騰訊云為用戶提供的基礎防護服務的上限。2018年8月15日,有企業(yè)反饋其在騰訊云上的數(shù)據(jù)丟失,該公司就此次故障對騰訊云提出了高達11,016,000元的索賠要求。
盡管云服務商均出現(xiàn)過較為嚴重的宕機經(jīng)歷,但需要指出的一個事實是:無論是從理論研究層面,亦或是實踐運行中,云廠商提供的公有云服務,以普遍高達99.95%的SLA,還是要比絕大多數(shù)用戶自建機房可靠性要更高,出現(xiàn)故障更多是非人為因素或是一些極小概率事件導致,不必因此“諱疾忌醫(yī)”覺得公有云不安全。我們需要做的,就是在風險來臨前,將其發(fā)生的概率盡可能降低,而通過接入多家云廠商,來盡可能減少對單一廠商的依賴,從而分散風險,提高業(yè)務的可持續(xù)性,成為解決方式之一。
“多云戰(zhàn)略”的歷史必然性:風險分擔與優(yōu)勢互補
本次宕機事件后,如何預防服務中斷、避免關鍵數(shù)據(jù)丟失成為大家關注的重點,“多云戰(zhàn)略”再一次成了業(yè)界的焦點話題。所謂“多云戰(zhàn)略”,指的是企業(yè)同時采用兩家或以上的云服務供應商,并且在多個云之間部署熱切換系統(tǒng)。這樣當任何一家云服務商出現(xiàn)運行故障時,企業(yè)的關鍵應用和核心數(shù)據(jù),就能迅速切換到其他云服務商的設施上繼續(xù)運行。
采用“多云戰(zhàn)略”,同時在多家云服務商購買云計算資源和服務,將IT資源分散部署到多個云平臺,其好處顯而易見,通過在多家供應商提供的解決方案中發(fā)掘潛在的服務質(zhì)量、能力或價格優(yōu)勢,可以根據(jù)云廠商的情況隨時拓展或者變更,不再受限于廠商,也能夠顯著提高業(yè)務安全性和和分散風險。
多云這一趨勢也得到了市場的驗證。據(jù)RightScale發(fā)布的2018年云計算調(diào)查報告顯示,81%的受訪企業(yè)采用了多云策略。而據(jù)IDC的預測數(shù)據(jù),到2020年9成以上的企業(yè)都會采用“多云”來構建基礎IT能力。企業(yè)選擇多家云服務商來滿足他們的IT需求,已經(jīng)變得越來越普遍,通過采用多家云廠商,實現(xiàn)風險分擔并充分發(fā)揮各家云廠商的技術優(yōu)勢,從而獲得更好的服務,這也符合客戶的利益訴求。
將核心數(shù)據(jù)、重要業(yè)務分散部署在多個云廠商,這一“雞蛋放在多個籃子里”的做法,其實是“老生常談”,但過去多數(shù)企業(yè)并沒有真正重視起來,近年來的各類宕機事件,在提醒企業(yè)管理層的同時,也讓“多云戰(zhàn)略”被真正放到了實踐層面。對此,建議用戶在選擇云廠商時,盡量選擇業(yè)務經(jīng)過規(guī)模化驗證的云服務商,如采用了阿里云,可同時選用騰訊云、百度云、金山云等作為互補,從互聯(lián)網(wǎng)業(yè)務起家的云廠商,其公有云實力不容置疑,畢竟是打過硬仗的,即使發(fā)生宕機,完備的容災機制,也能讓損失降低到最低范圍。
從歐美國家云計算發(fā)展經(jīng)驗來看,基于IT系統(tǒng)的復雜性和對可靠性的高要求,企業(yè)在選擇云廠商時,更傾向于選擇經(jīng)過大規(guī)模業(yè)務實踐驗證過的云服務商,亞馬遜AWS、微軟Azure云等都是久經(jīng)業(yè)務場景考驗的云服務,也是往往企業(yè)最核心的選擇之一,而包括IBM、Oracle等IT廠商轉(zhuǎn)型做云服務的企業(yè),因為缺乏實際業(yè)務場景驗證,其云服務水平并不如意。
放眼國內(nèi),包括阿里云、騰訊云、百度云、金山云等一批在互聯(lián)網(wǎng)海量業(yè)務場景中歷練而出的云服務商,具備優(yōu)良的容備災和大規(guī)模業(yè)務部署能力,其抗風險性更強,“多云戰(zhàn)略”時,可以重點關注。最后,站在用戶的角度而言,面向未來更加復雜多變的業(yè)務場景,云廠商之間相互協(xié)同,共同抵御風險,站在同一“戰(zhàn)壕”里協(xié)同作戰(zhàn),也未嘗不可。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!