域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過(guò)
不管是中文的“健壯”,還是英文的“Strong”,通常用于形容人或動(dòng)物的體格,并隱含擁有更高的生存能力,或者說(shuō)在受傷失去部分生理機(jī)能后,擁有更快恢復(fù)正常的能力。
正是因?yàn)檫@一詞潛在的含義,也被借用以描述IT系統(tǒng)或應(yīng)用程序的特點(diǎn)之一,比如應(yīng)用程序/IT系統(tǒng)的健壯性,在遭遇bug或硬件故障的情況下,不會(huì)徹底“失能”,而是可以繼續(xù)工作并更快恢復(fù)常態(tài)。
IT系統(tǒng)的健壯性可以用“RAS”來(lái)說(shuō)明,即可靠性(Reliability)、可用性(Availability)和可維護(hù)性(Serviceability)。簡(jiǎn)單來(lái)說(shuō),可靠性意味著組成IT系統(tǒng)的各組件品質(zhì)過(guò)關(guān),不易故障,即使某一個(gè)或多個(gè)組件發(fā)生故障,也不影響應(yīng)用程序的正常運(yùn)行(可用性);并且在組件或系統(tǒng)故障時(shí),其可即時(shí)啟用替換機(jī)制,使得故障組件/系統(tǒng)快速恢復(fù)正常(可維護(hù)性)。
可以看出,可靠性和可維護(hù)性設(shè)計(jì)在一定程度上是服從可用性設(shè)計(jì)的,其目的是為了提高可用性,滿足業(yè)務(wù)連續(xù)運(yùn)行(而盡可能不被中斷)的需求。
IT系統(tǒng)可用性通常用幾個(gè)“9”來(lái)衡量,如5個(gè)9、6個(gè)9,指的是系統(tǒng)可用時(shí)間的百分比,相對(duì)應(yīng)的是以年為單位計(jì)算(允許的)停機(jī)時(shí)間。
試舉兩例:1個(gè)9即90%的可用性,每年允許的停機(jī)時(shí)間不超過(guò)36.5天;5個(gè)9即99.999%的可用性,每年的停機(jī)時(shí)間不能超過(guò)5分半鐘。
圖注:E企研究院整理的可用性與(允許)停機(jī)時(shí)間對(duì)照表,可用性每多一個(gè)9,單位時(shí)間內(nèi)允許的停機(jī)時(shí)間下降到十分之一:譬如,可用性為4個(gè)9(99.99%)每年允許的停機(jī)時(shí)間接近53分鐘,而5個(gè)9每年允許的停機(jī)時(shí)間則下降到5分半鐘以內(nèi)
我們知道,由于開機(jī)自檢等過(guò)程耗時(shí)較長(zhǎng),服務(wù)器重啟一次的時(shí)間可能超過(guò)5分鐘,這意味著每年服務(wù)器只要宕機(jī)一次,哪怕立刻恢復(fù),5個(gè)9的可用性就保不住了。然而,硬件的單點(diǎn)失效(Single Point OfFailure,SPOF)是不可能徹底避免的,再加之有時(shí)軟件系統(tǒng)出的故障最終也要通過(guò)服務(wù)器重啟來(lái)解決,所以“2N”系統(tǒng)就成為保障高可用性的常見思路。譬如,兩套一樣的系統(tǒng),運(yùn)行一樣的應(yīng)用,訪問(wèn)一樣的數(shù)據(jù),平時(shí)一主一備(Active-Passive),主系統(tǒng)出故障之后備份系統(tǒng)接管,由于后者一直在運(yùn)行著,不需要經(jīng)歷一遍耗時(shí)的軟硬件啟動(dòng)工作,理論上服務(wù)中斷的時(shí)間只取決于主備之間的切換速度,不要說(shuō)5個(gè)9,就是6個(gè)9或者7個(gè)9,也是可以實(shí)現(xiàn)的。
理論很簡(jiǎn)單,實(shí)現(xiàn)很復(fù)雜,包括如何保證兩套系統(tǒng)的數(shù)據(jù)和(應(yīng)用)狀態(tài)盡可能一致,以便快速切換?
傳統(tǒng)計(jì)算與存儲(chǔ)分離的架構(gòu),最少需要兩臺(tái)服務(wù)器連接到一套雙控的存儲(chǔ)系統(tǒng)上,兩臺(tái)服務(wù)器之間同步應(yīng)用,數(shù)據(jù)的高可用由雙控制器的存儲(chǔ)系統(tǒng)負(fù)責(zé),后者使用的存儲(chǔ)介質(zhì)通常具備雙端口功能(如FC或SAS硬盤),數(shù)據(jù)訪問(wèn)的控制權(quán)在必要時(shí)(如其中一個(gè)控制器故障)切換。相應(yīng)的,網(wǎng)絡(luò)子系統(tǒng)通常也是雙冗余設(shè)置,整套解決方案的構(gòu)成很是復(fù)雜。雙端口硬盤減少了數(shù)據(jù)同步的工作量,但其本身又經(jīng)常被劃歸專用設(shè)備的范疇,不符合標(biāo)準(zhǔn)化硬件結(jié)合“軟件定義”的潮流。
超融合架構(gòu)(Hyper-Converged Infrastructure,HCI)則通過(guò)在工業(yè)標(biāo)準(zhǔn)服務(wù)器中采用軟件定義存儲(chǔ)的方式,實(shí)現(xiàn)了計(jì)算與存儲(chǔ)兩大角色的統(tǒng)一,提高了擴(kuò)展的靈活性,降低了部署和運(yùn)維的復(fù)雜性。不過(guò),大多數(shù)超融合系統(tǒng)的分布式軟件定義存儲(chǔ)都采用三副本機(jī)制來(lái)避免數(shù)據(jù)丟失,加上可維護(hù)性的考慮,這些超融合系統(tǒng)通常從三節(jié)點(diǎn)或四節(jié)點(diǎn)起步,無(wú)形中又提升了用戶采購(gòu)的門檻。也就是說(shuō),在不考慮網(wǎng)絡(luò)設(shè)備的情況下,不管是計(jì)算與存儲(chǔ)分離,還是計(jì)算與存儲(chǔ)一體,上述兩種小規(guī)模部署中常見的高可用架構(gòu),設(shè)備或者說(shuō)節(jié)點(diǎn)的數(shù)量都不少于3臺(tái)——譬如超融合系統(tǒng)較為常用的2U4節(jié)點(diǎn)服務(wù)器,我們按照4臺(tái)服務(wù)器計(jì)算。
從架構(gòu)的層面看,ZStack Mini兼具兩種架構(gòu)的部分特性:一方面,它是計(jì)算與存儲(chǔ)一體的超融合;另一方面,其每個(gè)節(jié)點(diǎn)內(nèi)部的存儲(chǔ)子系統(tǒng)又基于傳統(tǒng)存儲(chǔ)系統(tǒng)常用的RAID技術(shù)。
有趣的是,通過(guò)這一組合,ZStack Mini最少只需要2臺(tái)服務(wù)器,即一臺(tái)2U2節(jié)點(diǎn)服務(wù)器——雖然都是2U多節(jié)點(diǎn),2U2的成本可以比2U4低很多,從而顯著降低用戶的接受難度。
那么,在(最小)只有2個(gè)節(jié)點(diǎn)的情況下,ZStack Mini是如何保證數(shù)據(jù)和應(yīng)用的高可用的呢?其存儲(chǔ)空間利用率又如何呢?請(qǐng)看我們下面的解析。
極簡(jiǎn)架構(gòu)有助于提升可靠性
可靠性是可用性的組成部分之一。能夠長(zhǎng)期穩(wěn)定運(yùn)行的可靠組件有助于系統(tǒng)的整體可用性,但“可靠”又受成本約束,“高成本的高可用”系統(tǒng)并非沒(méi)有實(shí)際意義,但門檻太高。
鑒于ZStack Mini傳承自ZStack云引擎,同時(shí)其產(chǎn)品形態(tài)(2U2節(jié)點(diǎn))與2U4節(jié)點(diǎn)形態(tài)的超融合產(chǎn)品有一定的相似,比如2U機(jī)箱、雙冗余電源、幾乎相同的占地空間,而且兩者都可以2U為最小部署單元(超融合的3節(jié)點(diǎn)或4節(jié)點(diǎn)都用2U4),但是只有2個(gè)節(jié)點(diǎn)的ZStack Mini在架構(gòu)上無(wú)疑更為簡(jiǎn)單。
圖上為ZStack Mini,2U機(jī)箱內(nèi)置兩個(gè)服務(wù)器節(jié)點(diǎn);圖下為較為主流的2U4節(jié)點(diǎn)設(shè)計(jì)的超融合一體機(jī)。從硬件數(shù)量來(lái)看,顯然2U4節(jié)點(diǎn)的超融合比2U2節(jié)點(diǎn)的ZStack Mini組件數(shù)量多得多,而且空間設(shè)計(jì)也更緊湊,每個(gè)節(jié)點(diǎn)面臨的擴(kuò)展性和散熱等挑戰(zhàn)更大
不管是ZStack Mini還是2U4節(jié)點(diǎn)的超融合一體機(jī)產(chǎn)品,內(nèi)部都有多種IT硬件,每種乃至每個(gè)硬件都有故障率。以ZStack Mini中大量使用的西部數(shù)據(jù)Ultrastar DC HC310(4TB)硬盤為例,其年故障率為0.44%,系統(tǒng)內(nèi)所使用的硬件越多,其故障的風(fēng)險(xiǎn)自然越大。
西部數(shù)據(jù)官網(wǎng)公布的Ultrastar DC HC310系列硬盤的可用性,上圖中Annual failurerate(AFR)即為硬盤的年故障率(0.44%);上圖中的MTBF則表示平均故障間隔時(shí)間,為2百萬(wàn)小時(shí)
與硬盤緊密相連的組件是SATA/SAS RAID卡,ZStack Mini使用了Broadcom公司推出的帶鋰電池備份單元(Battery Backup Unit,BBU)的RAID卡,在遭遇突發(fā)停機(jī)的情況下,可以將RIAD卡Cache中的數(shù)據(jù)存儲(chǔ)到硬盤。
ZStack Mini內(nèi)置的2節(jié)點(diǎn)內(nèi)部,毗鄰CPU散熱片,貼有白底標(biāo)簽紙的組件即為鋰電池,其與緊貼機(jī)箱壁的RAID卡相連,在突發(fā)掉電情況下為RAID卡供電,有助于降低數(shù)據(jù)丟失風(fēng)險(xiǎn)
從上圖也可以看出,ZStack Mini中所采用的半寬2U節(jié)點(diǎn),其內(nèi)部空間還是比較寬裕的,相比于2U4中的半寬1U節(jié)點(diǎn),散熱條件更好,有利于升級(jí)到更高規(guī)格的CPU,而且工作溫度也是影響系統(tǒng)可靠性的一大重要因素,尤其是部署在邊緣站點(diǎn)或小微企業(yè)內(nèi)部的產(chǎn)品,其運(yùn)行環(huán)境通常比專業(yè)數(shù)據(jù)中心復(fù)雜得多
每一個(gè)組件都有故障率,每一個(gè)組件的故障都會(huì)影響系統(tǒng)的可靠性,進(jìn)而影響可用性。故障并不可怕,重要的是組件故障后,如何保障用戶的數(shù)據(jù)不丟失,甚至能夠讓應(yīng)用持續(xù)運(yùn)行,繼續(xù)可用,這是在系統(tǒng)或解決方案設(shè)計(jì)時(shí)最重要的目標(biāo)之一。
除了應(yīng)用的可用性,還要考慮數(shù)據(jù)的可用性,并且避免存儲(chǔ)子系統(tǒng)的故障導(dǎo)致數(shù)據(jù)丟失。據(jù)ZStack介紹,ZStack Mini通過(guò)兩副本加兩糾刪碼的雙重保險(xiǎn)保障數(shù)據(jù)安全,只有在至少兩個(gè)節(jié)點(diǎn)各兩塊硬盤同時(shí)損壞的場(chǎng)景下才有數(shù)據(jù)丟失的風(fēng)險(xiǎn),整體數(shù)據(jù)可用率高達(dá)99.999995%,比通常超融合雙副本安全系數(shù)高4個(gè)9,比三副本安全系數(shù)高2個(gè)9,這又是怎么做到的呢?
節(jié)點(diǎn)內(nèi):N+1應(yīng)對(duì)磁盤故障
硬盤是ZStack Mini中的數(shù)據(jù)存儲(chǔ)擔(dān)當(dāng),其前面板上插滿了12塊3.5英寸硬盤,平均分給2個(gè)節(jié)點(diǎn)使用。其中4塊(每節(jié)點(diǎn)各2)用于安裝操作系統(tǒng),其余8塊(每節(jié)點(diǎn)各4)留給用戶存儲(chǔ)數(shù)據(jù)。
當(dāng)下,大多數(shù)超融合一體機(jī)中采用了三副本數(shù)據(jù)保護(hù)機(jī)制,將同一份數(shù)據(jù)分別存放在三臺(tái)不同的服務(wù)器內(nèi),從而在遭遇單個(gè)硬盤或節(jié)點(diǎn)故障后,數(shù)據(jù)仍然可正常讀寫。
ZStack Mini則頗為“非主流”的采用了基于硬件(RAID卡)的RAID技術(shù),其中操作系統(tǒng)盤用RAID 1(鏡像)保護(hù),每節(jié)點(diǎn)的4個(gè)數(shù)據(jù)盤用RAID 5(奇偶校驗(yàn))保護(hù)。
RAID技術(shù)與RISC技術(shù)誕生于同一時(shí)代,而且還師出同人,然而,RISC-V目下正是計(jì)算領(lǐng)域的當(dāng)紅炸子雞,RAID卻已不大有人提起。其中一個(gè)很重要的原因在于,傳統(tǒng)基于硬件的RAID技術(shù)不適合大規(guī)模部署環(huán)境,在使用大容量硬盤的時(shí)候恢復(fù)時(shí)間也面臨很大的挑戰(zhàn)。
不過(guò),RAID的核心理論和算法并沒(méi)有過(guò)時(shí),譬如在大規(guī)模部署環(huán)境中為解決副本技術(shù)存儲(chǔ)容量利用率偏低而采用的糾刪碼(Erasure Code)技術(shù),其核心算法原理與RAID 5/6是相通的,我們可以將RAID 5視為N+1的糾刪碼。
而在小規(guī)模部署環(huán)境中,譬如ZStack Mini這種每個(gè)節(jié)點(diǎn)只有個(gè)位數(shù)硬盤的情況下,RAID技術(shù)仍然能夠發(fā)揮很好的作用,RAID卡還可以把CPU從底層存儲(chǔ)任務(wù)處理中解放出來(lái),貢獻(xiàn)更多的虛擬機(jī)。
理論基礎(chǔ)有了,接下來(lái)我們就通過(guò)在實(shí)際應(yīng)用運(yùn)行場(chǎng)景下直接拔盤的手段來(lái)驗(yàn)證ZStack Mini節(jié)點(diǎn)是否還能正常工作,以下視頻為驗(yàn)證過(guò)程:
視頻解讀:在初始化好的ZStack Mini中,E企研究院創(chuàng)建了一個(gè)Windows 10(試用版)操作系統(tǒng)的虛機(jī),然后安裝Adobe PremierePro CS6(試用版)軟件,這是Windows平臺(tái)下主流的視頻剪輯軟件。
我們將幾個(gè)視頻片段導(dǎo)入到Premiere中,剪輯拼合成一個(gè)視頻,利用Premiere對(duì)這個(gè)剪輯后的視頻進(jìn)行渲染。在渲染過(guò)程中(大約渲染了三分之一進(jìn)度之后),我們直接拔掉了此虛機(jī)所在物理節(jié)點(diǎn)上的一塊用于數(shù)據(jù)存儲(chǔ)的硬盤(4TB)。但Premiere的渲染任務(wù)并沒(méi)有停頓,正常完成。但在ZStack Mini的管理后臺(tái),監(jiān)控中顯示W(wǎng)indows 10虛機(jī)所在物理節(jié)點(diǎn)出現(xiàn)硬盤故障,性能和可用性“降級(jí)”。這意味著數(shù)據(jù)沒(méi)有丟失,應(yīng)用仍可正常運(yùn)行,但存在潛在風(fēng)險(xiǎn):如果此時(shí)節(jié)點(diǎn)內(nèi)再有一塊硬盤發(fā)生故障,將導(dǎo)致數(shù)據(jù)丟失——當(dāng)然,在下一節(jié)我們會(huì)看到,另一個(gè)節(jié)點(diǎn)不會(huì)允許這種事情發(fā)生。
當(dāng)我們將被拔出的硬盤重新插入硬盤倉(cāng)(相當(dāng)于用新盤替換故障盤),ZStack Mini識(shí)別到健康盤已插入,并開始自動(dòng)重建。
圖注:拔出后的硬盤重新插入,ZStack Mini自動(dòng)進(jìn)行數(shù)據(jù)重建,在管理后臺(tái)對(duì)應(yīng)的監(jiān)控界面中,可以看到“重建中”狀態(tài)標(biāo)志,性能監(jiān)視界面也顯示目前有持續(xù)的IO讀寫活動(dòng);直到數(shù)據(jù)“重建”完成前,RAID健康狀態(tài)都將處于“降級(jí)”狀態(tài)
通過(guò)上述模擬場(chǎng)景的測(cè)試驗(yàn)證,ZStack Mini任意節(jié)點(diǎn)確實(shí)能夠有效地抵御單塊數(shù)據(jù)存儲(chǔ)盤故障,不會(huì)導(dǎo)致數(shù)據(jù)丟失或應(yīng)用停頓,應(yīng)用虛機(jī)仍舊無(wú)感知地繼續(xù)當(dāng)前任務(wù),直至完成或人工干預(yù)。
節(jié)點(diǎn)間:2N保障應(yīng)用高可用
節(jié)點(diǎn)內(nèi)的RAID技術(shù)保證了任一磁盤故障都不會(huì)對(duì)應(yīng)用造成影響,但是傳統(tǒng)基于硬件的RAID技術(shù)(更換硬盤后)重建數(shù)據(jù)的時(shí)間比較長(zhǎng)——根據(jù)硬盤容量的不同,幾個(gè)小時(shí)不等——在此期間,如果再有一個(gè)硬盤壞掉,數(shù)據(jù)就會(huì)丟失,應(yīng)用也會(huì)中斷。此外,CPU、內(nèi)存、網(wǎng)卡等部件沒(méi)有冗余,出現(xiàn)故障也可能導(dǎo)致停機(jī)……凡此種種,都是ZStack Mini的另一個(gè)節(jié)點(diǎn)發(fā)揮作用的時(shí)候,我們不妨稱之為節(jié)點(diǎn)級(jí)副本。
圖上為ZStack Mini正面,布滿了3.5英寸硬盤,支持熱插拔。圖下為背部,幾乎所有組件都位于節(jié)點(diǎn)內(nèi)部,這意味著更換除硬盤外的任一組件都需要停機(jī)
正所謂“養(yǎng)兵千日,用兵一時(shí)”,當(dāng)一個(gè)節(jié)點(diǎn)不能正常工作的時(shí)候,另一個(gè)節(jié)點(diǎn)就要揣著一直在同步的數(shù)據(jù)和狀態(tài)“挺身而出”了,這就是我們通常所說(shuō)的(節(jié)點(diǎn)級(jí))高可用。為了驗(yàn)證這一特性,我們將應(yīng)用虛機(jī)設(shè)置為“高可用”之后,通過(guò)將其所在節(jié)點(diǎn)突然斷電的手段,驗(yàn)證應(yīng)用是否能夠繼續(xù)運(yùn)行。
視頻解讀:ZStack Mini中的節(jié)點(diǎn)1因?yàn)樯弦粋€(gè)測(cè)試中拔掉其中一塊硬盤,正處于“重建”狀態(tài),在這測(cè)試中,E企研究院模擬這一“故障”節(jié)點(diǎn)突發(fā)斷電,以驗(yàn)證ZStack Mini的高可用功能。
在節(jié)點(diǎn)1上有4個(gè)虛機(jī),其中“渲染服務(wù)器”、“轉(zhuǎn)碼服務(wù)器”和“網(wǎng)管平臺(tái)”設(shè)置為高可用,作為對(duì)比,另一個(gè)名為“CentOS7.2”的虛機(jī)則不使用高可用功能。在轉(zhuǎn)碼服務(wù)器中,E企研究院將上一測(cè)試渲染好的視頻導(dǎo)出,并使用XCoder軟件進(jìn)行轉(zhuǎn)碼。
在轉(zhuǎn)碼過(guò)程中(大約已完成三分之一的轉(zhuǎn)碼進(jìn)度時(shí)),不經(jīng)過(guò)任何操作,直接關(guān)閉節(jié)點(diǎn)1電源,以模擬突發(fā)掉電。在節(jié)點(diǎn)1斷電后,ZStack Mini提示節(jié)點(diǎn)1失聯(lián),并報(bào)告“網(wǎng)管平臺(tái)”失聯(lián)。隨后,ZStack Mini啟動(dòng)“高可用”進(jìn)程,開始遷移開啟了“高可用”功能的應(yīng)用虛機(jī),大約1分鐘后,原來(lái)位于節(jié)點(diǎn)1上,并開啟了“高可用”功能的虛機(jī)在節(jié)點(diǎn)2上重啟。
“轉(zhuǎn)碼服務(wù)器”重啟之后,XCoder之前的任務(wù)進(jìn)度清零,并自動(dòng)重新開始任務(wù)。我們經(jīng)過(guò)測(cè)試證明,當(dāng)ZStack Mini上任一節(jié)點(diǎn)掉電后,其上開啟了“高可用”功能的虛機(jī)將自動(dòng)遷移到另一正常運(yùn)行節(jié)點(diǎn)。
通過(guò)上述的兩階段驗(yàn)證,可以看出,不管是在硬盤組件故障,還是節(jié)點(diǎn)級(jí)故障,ZStack Mini都具有良好的可用性,應(yīng)用能夠無(wú)間斷或經(jīng)歷短暫停頓后繼續(xù)運(yùn)行,不會(huì)造成數(shù)據(jù)丟失。
計(jì)算存儲(chǔ):效率和數(shù)據(jù)持久性
在使用這套ZStack Mini的過(guò)程中,我們與一些對(duì)此產(chǎn)品有興趣的潛在用戶進(jìn)行了溝通,發(fā)現(xiàn)有一個(gè)很有代表性的問(wèn)題:兩個(gè)節(jié)點(diǎn)一主一備,可用性是保證了,但是硬件的利用率豈不是只有一半?會(huì)不會(huì)很浪費(fèi)?
這個(gè)問(wèn)題可以從計(jì)算和存儲(chǔ)資源兩個(gè)層面來(lái)看。
從應(yīng)用的層面來(lái)說(shuō),如前面的測(cè)試環(huán)節(jié)中所提到的,應(yīng)用所在的虛機(jī),“高可用”功能是可選的,也就是說(shuō)只有開啟這一功能,虛機(jī)才會(huì)同時(shí)占用兩個(gè)節(jié)點(diǎn)的計(jì)算資源,這也是為了保證應(yīng)用持續(xù)運(yùn)行所必須付出的代價(jià)。如果某個(gè)應(yīng)用對(duì)可用性的要求沒(méi)有那么高,就可不開啟“高可用”,也就省去了不必要的浪費(fèi)。
從存儲(chǔ)的層面來(lái)說(shuō),ZStack Mini所有的用戶數(shù)據(jù)都在兩個(gè)節(jié)點(diǎn)上鏡像存儲(chǔ),這樣即使一個(gè)節(jié)點(diǎn)完全損壞,數(shù)據(jù)也不至于丟失。從數(shù)據(jù)盤的存儲(chǔ)利用率來(lái)看,節(jié)點(diǎn)間是1+1(鏡像),節(jié)點(diǎn)內(nèi)是3+1(4個(gè)盤的RAID 5),所以總體效率是0.5×0.75=0.375,即不到一半的水平。
看起來(lái)不高是么?作為對(duì)比,三副本的超融合系統(tǒng),存儲(chǔ)利用率為三分之一,即0.333——如此看來(lái),ZStack Mini還略占優(yōu)勢(shì)呢。
ZStack方面也對(duì)Mini在數(shù)據(jù)持久性上的優(yōu)勢(shì)進(jìn)行了解釋:
雙副本數(shù)據(jù)持久性失效的概率等于分布在不同計(jì)算節(jié)點(diǎn)的任意兩個(gè)盤同時(shí)損壞的概率,按照 Google的磁盤年損壞率數(shù)據(jù)1.7%(高于硬盤廠商公布的指標(biāo))算的話,那就是1.7%×1.7%×(1/2)=0.01445%,數(shù)據(jù)持久性為98.56%,接近2個(gè)9;
雙副本+RAID5數(shù)據(jù)持久性失效的概率等于分布在不同計(jì)算節(jié)點(diǎn)上任意四個(gè)盤同時(shí)損壞的概率,并且必須是一邊2個(gè),而不能是一邊4個(gè)或者一邊3個(gè),那就是1- 1.7%×1.7%×1.7%×1.7%×(18/31) =99.999995%,即高于7個(gè)9(18/31是8塊硬盤同時(shí)壞4塊而且在兩個(gè)節(jié)點(diǎn)各2個(gè)的概率);
而三副本只要任意3塊盤損壞就丟數(shù)據(jù),3副本的可用性概率是1-1.7%×1.7%×1.7% =99.99951%,即高于5個(gè)9。
展望3.0:提升可維護(hù)性,助力整體可用性
可維護(hù)性是一個(gè)籠統(tǒng)的說(shuō)法,但其又體現(xiàn)在產(chǎn)品設(shè)計(jì)的每一個(gè)細(xì)節(jié)。
比如說(shuō),現(xiàn)代x86服務(wù)器大多具有(驅(qū)動(dòng)器)熱插拔、免工具拆裝的特點(diǎn),這實(shí)際上是在硬件層面體現(xiàn)了可維護(hù)性。不借助工具,徒手即可對(duì)故障組件進(jìn)行更換,縮短維護(hù)時(shí)間,自然有助于可用性(畢竟可用性也是可以用停機(jī)時(shí)間來(lái)衡量的)。
同時(shí)在軟件方面,具體到ZStack Mini來(lái)說(shuō),在初始化環(huán)節(jié)就節(jié)省了大量的時(shí)間,同時(shí)很多功能都是通過(guò)鼠標(biāo)點(diǎn)擊,然后多個(gè)關(guān)聯(lián)流程在后臺(tái)靜默完成,這也是可維護(hù)性的體現(xiàn):盡量減少人工操作,避免人為誤操作。
當(dāng)然這些還遠(yuǎn)遠(yuǎn)不夠。在談到ZStack Mini的未來(lái)發(fā)展時(shí),ZStack介紹了即將推出的ZStack Mini 3.0產(chǎn)品,其將新增多個(gè)重大功能:
備份功能
目前的2.0版本經(jīng)過(guò)設(shè)置也可實(shí)現(xiàn)備份,但3.0版本將正式推出外接磁盤備份功能,可對(duì)系統(tǒng)進(jìn)行定期備份,并可使用這些備份在新機(jī)器上恢復(fù)。未來(lái),其還將支持備份到云端功能,讓數(shù)據(jù)徹底高枕無(wú)憂。
改進(jìn)則與應(yīng)用高可用相關(guān)。
在我們驗(yàn)證“節(jié)點(diǎn)故障”的時(shí)候,盡管應(yīng)用虛機(jī)設(shè)置了高可用,但當(dāng)節(jié)點(diǎn)故障后,應(yīng)用虛機(jī)仍需經(jīng)過(guò)短暫停頓才恢復(fù)服務(wù)。而在新的3.0版本中,在遭遇節(jié)點(diǎn)故障的情況下,將實(shí)現(xiàn)無(wú)間斷切換,用戶感覺(jué)不到應(yīng)用虛機(jī)的停頓。
在ZStack Mini中集成應(yīng)用中心
目前ZStack Mini 2.0平臺(tái)部署好以后,用戶需要手動(dòng)創(chuàng)建虛機(jī),并安裝應(yīng)用程序。這對(duì)于大多數(shù)小型企業(yè)或邊緣站點(diǎn)而言,一是比較復(fù)雜,二是耗時(shí)。但在3.0中,ZStack將與各個(gè)ISV合作,根據(jù)不同行業(yè)的應(yīng)用特點(diǎn),直接將應(yīng)用模板集成到應(yīng)用中心,用戶只需下載即可進(jìn)行部署,省卻了應(yīng)用安裝過(guò)程中的復(fù)雜配置,同時(shí)在升級(jí)、維護(hù)方面也更有保障,極大地提高了可維護(hù)性。
申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!