域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過(guò)
為進(jìn)一步促進(jìn)云計(jì)算創(chuàng)新發(fā)展,建立云計(jì)算信任體系,提升產(chǎn)業(yè)技術(shù)和服務(wù)水平,由中國(guó)信息通信研究院、中國(guó)通信標(biāo)準(zhǔn)化協(xié)會(huì) 聯(lián)合主辦的第十屆可信云大會(huì)于 2023 年 7 月 25 - 26 日在北京國(guó)際會(huì)議中心舉行,大會(huì)重磅發(fā)布了最新一批可信云評(píng)估結(jié)果及最佳實(shí)踐案例。 本次 “可信云最佳實(shí)踐案例” 共設(shè)置六大類別,為云原生界的發(fā)展范式提選,共歷時(shí) 2 個(gè)月,「DaoCloud 道客」的網(wǎng)絡(luò)運(yùn)維巡檢方案和中間件方案 在眾多方案中脫穎而出,獲得云原生容器類和云原生虛擬化云平臺(tái)類的最佳實(shí)踐。
兩個(gè)方案都是在紛繁復(fù)雜的需求場(chǎng)景下,應(yīng)對(duì)實(shí)際應(yīng)用場(chǎng)景的查漏補(bǔ)缺而產(chǎn)生的創(chuàng)新方案,不僅更貼合實(shí)際生產(chǎn)環(huán)境的實(shí)際需求,也進(jìn)一步為云計(jì)算行業(yè)的標(biāo)準(zhǔn)化體系建設(shè)落地提供有力支撐和參考。
「DaoCloud 道客」研發(fā)副總裁-潘遠(yuǎn)航;云原生網(wǎng)絡(luò)團(tuán)隊(duì)負(fù)責(zé)人、云原生研究院院長(zhǎng)-藍(lán)維洲,出席會(huì)議并領(lǐng)獎(jiǎng)。
此外,DaoCloud 研發(fā)副總裁潘遠(yuǎn)航,參與可信云“平臺(tái)工程與 SRE 分論壇”,并發(fā)表演講《平臺(tái)工程助力研發(fā)效能提升的實(shí)踐 》。他指出,作為 Gartner 2023 年重要戰(zhàn)略技術(shù)趨勢(shì),“平臺(tái)工程”旨在為企業(yè)的開(kāi)發(fā)團(tuán)隊(duì)提供一個(gè)自助開(kāi)發(fā)平臺(tái)和最佳實(shí)踐,助力效率的提升、業(yè)務(wù)的專注、標(biāo)準(zhǔn)的統(tǒng)一?;谖覀兩a(chǎn)落地的實(shí)踐,分享我們?nèi)绾闻浜峡蛻舻钠脚_(tái)團(tuán)隊(duì),規(guī)劃和實(shí)現(xiàn)平臺(tái)工程定義的平臺(tái)能力。
01
最佳實(shí)踐
網(wǎng)絡(luò)運(yùn)維巡檢方案
目前巡檢通常有兩類方式,一是被動(dòng)式巡檢,通過(guò)采集應(yīng)用的信息來(lái)確認(rèn)集群的狀態(tài)但是缺少時(shí)效性。二是主動(dòng)式巡檢,采用手動(dòng)方式給集群注入壓力,觀測(cè)集群的情況,但是因?yàn)橐?guī)模大、巡檢頻率高或流程復(fù)雜等原因,實(shí)施困難。這兩種巡檢方式,在部分巡檢場(chǎng)景下并不能滿足巡檢目的。
「DaoCloud 道客」推出的運(yùn)維巡檢方案是調(diào)研了運(yùn)維人員的常規(guī)巡檢需求而產(chǎn)生的,源于其開(kāi)源項(xiàng)目 Kdoctor 。Kdoctor 是一款基于主動(dòng)式壓力注入的巡檢項(xiàng)目,讓網(wǎng)絡(luò)、存儲(chǔ)、應(yīng)用等巡檢任務(wù)實(shí)現(xiàn)了自動(dòng)化,基于 CRD 的設(shè)計(jì),能夠?qū)佑^測(cè)性組件,讓巡檢功能的實(shí)施高度產(chǎn)品化,能完成集群網(wǎng)絡(luò)聯(lián)通性巡檢、coredns 服務(wù)巡檢、基礎(chǔ)網(wǎng)絡(luò)健康巡檢、http 服務(wù)巡檢、本地磁盤巡檢等任務(wù)。Kdoctor 的定位不是取代傳統(tǒng)專業(yè)的測(cè)試工具, 而是希望提供一個(gè)簡(jiǎn)單、快速、高效的云原生化巡檢工具,來(lái)幫助傳統(tǒng)的測(cè)試工具完善缺少的功能。 Kdoctor 的主要?jiǎng)?chuàng)新特點(diǎn):
(1)探針式的巡檢原理:不依賴第三方應(yīng)用的部署和輸出, 主動(dòng)向集群注入壓力,采集響應(yīng),同時(shí)對(duì)發(fā)壓端的開(kāi)銷內(nèi)存用量做了優(yōu)化, 確保長(zhǎng)時(shí)間壓測(cè)情況下不會(huì)出現(xiàn) Pod 的 OOM,提高了巡檢的可實(shí)施性。
(2)高覆蓋度:能夠覆蓋測(cè)試到集群中的眾多組件和基礎(chǔ)設(shè)施。
(3)縮短巡檢時(shí)間:高度適用于大規(guī)模集群 的部署和日常運(yùn)維、故障問(wèn)題的范圍排查,一定程度上減輕了運(yùn)維工作量。
(4)巡檢結(jié)論準(zhǔn)確性高:對(duì)運(yùn)維工作進(jìn)行了標(biāo)準(zhǔn)化 的實(shí)現(xiàn),以最佳實(shí)踐的發(fā)壓參數(shù)和配置實(shí)現(xiàn)了巡檢,降低了測(cè)試人員的技能門檻。
(5)低成本:能夠降低測(cè)試環(huán)境的準(zhǔn)備成本 。
(6)支持多種巡檢報(bào)告輸出形式:支持CR status、aggregation API、PVC、本地磁盤、metric等多種方式,可對(duì)接后端觀測(cè)性組件,繪制集群的相關(guān)狀態(tài)拓?fù)鋱D, 滿足多維度產(chǎn)品需求。
在技術(shù)層面上,Kdoctor 主要由如下組件構(gòu)成:
(1)Kdcotor controller,主要的工作是實(shí)施巡檢任務(wù)的管理。當(dāng)管理員下發(fā)具體的巡檢任務(wù) CR 時(shí),Kdcotor controller 就會(huì)動(dòng)態(tài)啟動(dòng)一組相應(yīng)的 task agent pod 來(lái)實(shí)施。
(2)Kdcotor agent,它以 daemonset 或 deployment 存在,是巡檢任務(wù)的具體實(shí)施者,按需運(yùn)行在集群中的每一個(gè)角落,實(shí)施巡檢任務(wù),當(dāng) task agent pod 完成巡檢任務(wù)后,會(huì)把巡檢結(jié)果更新到巡檢任務(wù) CR status 中,也會(huì)把具體的巡檢報(bào)告匯聚發(fā)送到 Kdcotor controller。
Source: DaoCloud
適用場(chǎng)景:
(1)部署大規(guī)模集群后,實(shí)施一次性的巡檢任務(wù),確認(rèn)集群的網(wǎng)絡(luò)和磁盤正常,應(yīng)用部署的資源和副本數(shù)量正確,滿足期待的性能。
(2)集群日常運(yùn)維中,實(shí)施周期性的巡檢任務(wù),完成實(shí)時(shí)監(jiān)控,第一時(shí)間發(fā)現(xiàn)問(wèn)題。
(3)集群出現(xiàn)故障后,可實(shí)施問(wèn)題覆蓋范圍的排查。
(4)輔助各種云原生項(xiàng)目在 CICD 環(huán)節(jié)中的 E2E 測(cè)試。
(5)相關(guān)組件出現(xiàn)問(wèn)題后,可用于實(shí)施流量壓力注入,配合 Bug 復(fù)現(xiàn)排查。
(6)測(cè)試第三方應(yīng)用的灰度發(fā)布、升級(jí)等場(chǎng)景下的業(yè)務(wù)連續(xù)性。
運(yùn)維人員在集群部署、日常監(jiān)控、問(wèn)題范圍排查、問(wèn)題復(fù)現(xiàn)等場(chǎng)景下,缺少專業(yè)的、自動(dòng)化的、云原生的巡檢工具,這給運(yùn)維人員的工作增加了額外的負(fù)擔(dān),Kdoctor 的使用不僅可以降低運(yùn)維人員巡檢過(guò)程中的時(shí)間和人力成本,同時(shí)提升了各項(xiàng)目組的運(yùn)維效率。
02
最佳實(shí)踐
中間件方案
該方案是基于中間件能力提供的服務(wù)方案,在其中,中間件服務(wù)提供了一個(gè)強(qiáng)大的工具集,用于管理和監(jiān)控應(yīng)用程序,可提高應(yīng)用程序的可靠性和穩(wěn)定性,減少人工干預(yù)和人為錯(cuò)誤,主要有以下功能:1、可以自動(dòng)化應(yīng)用程序的管理任務(wù) ,例如配置和部署等。2、提供了豐富的監(jiān)控和報(bào)告功能 ,能夠輕松地跟蹤應(yīng)用程序的性能和健康狀況,提高應(yīng)用程序的可用性和響應(yīng)能力。3、提供了強(qiáng)大的自動(dòng)擴(kuò)展功能,能夠根據(jù)應(yīng)用程序的需求自動(dòng)增加或減少資源,從而提高應(yīng)用程序的效率和可擴(kuò)展性。 該方案的創(chuàng)新性在于容器化的使用 ,可以無(wú)需關(guān)心底層操作系統(tǒng)、網(wǎng)絡(luò)和存儲(chǔ)等細(xì)節(jié),保障數(shù)據(jù)庫(kù)的資源獨(dú)立性和安全性,通過(guò)結(jié)合云原生技術(shù) 也可以擁有 Kubernetes 所帶來(lái)的自動(dòng)伸縮、簡(jiǎn)化部署、部署靈活、高可用性、自動(dòng)化運(yùn)維等能力,實(shí)現(xiàn)了 Kafka-operator 從 java 到 Go 的語(yǔ)言轉(zhuǎn)變,利用 Go 語(yǔ)言一樣能對(duì) Kafka 的實(shí)例進(jìn)行管控, 該中間件服務(wù)也可以支持多種中間件從而提高資源利用率。該方案的技術(shù)能力特點(diǎn): 1.統(tǒng)一架構(gòu): 整體模塊支持多種中間件,通過(guò)統(tǒng)一的框架完成不同中間件管理,在擴(kuò)展和維護(hù)方面表現(xiàn)更加優(yōu)秀。2. 靈活拓展: 通過(guò)預(yù)留配置接口,可以更方便地實(shí)現(xiàn)應(yīng)用遷移,在升級(jí)和環(huán)境變更時(shí)給運(yùn)維團(tuán)隊(duì)帶來(lái)更多便利。3.高可用性: 通過(guò)結(jié)合云原生技術(shù),相較于傳統(tǒng)中間件模式可以做到極大的高可用,通過(guò)自動(dòng)故障檢測(cè)使中間件節(jié)點(diǎn)按需遷移到性能更高,穩(wěn)定性更好的計(jì)算及存儲(chǔ)節(jié)點(diǎn)等基礎(chǔ)設(shè)施中,對(duì)于中間件連續(xù)可用性及穩(wěn)定性都有了質(zhì)的飛躍。4. 高穩(wěn)定性: 通過(guò)結(jié)合 Kubernetes Operator 技術(shù),可以動(dòng)態(tài)管理高可用中間件的整體狀態(tài),極大地減少了用戶使用中間件過(guò)程中需要定期關(guān)注監(jiān)控告警并手動(dòng)維護(hù)的工作量。5. 多云能力: 通過(guò)結(jié)合 DaoCloud Enterprise 5.0 整體產(chǎn)品的跨集群打通能力,可以使中間件具備主從按集群分離部署的能力,有效減少了在極端情況下整個(gè)集群不可用時(shí)業(yè)務(wù)應(yīng)用使用中間件異常的風(fēng)險(xiǎn),為企業(yè)業(yè)務(wù)應(yīng)用多中心多活等場(chǎng)景提供了底層保障。適用場(chǎng)景 :1. 當(dāng)用戶需要快速創(chuàng)建和管理中間件時(shí),該方案提供了完善的產(chǎn)品功能和交互界面,用戶可以通過(guò)界面快速方便地創(chuàng)建和管理中間件實(shí)例,比起傳統(tǒng)模式通過(guò)命令行或腳本操作極大地提高用戶體驗(yàn)。2. 通過(guò) Operator 機(jī)制保證中間件實(shí)例在遇到問(wèn)題時(shí)的快速自愈能力,讓運(yùn)維人員無(wú)需長(zhǎng)時(shí)間關(guān)注監(jiān)控和告警來(lái)手動(dòng)管理中間件各節(jié)點(diǎn)。
03
總結(jié)
此次兩個(gè)方案獲得中國(guó)信息通信研究院、中國(guó)通信標(biāo)準(zhǔn)化協(xié)會(huì)等專業(yè)機(jī)構(gòu)的一致認(rèn)可,是激勵(lì)「DaoCloud道客」不斷前進(jìn)的動(dòng)力,我們會(huì)不斷地在業(yè)務(wù)實(shí)際使用場(chǎng)景中升級(jí)、迭代并創(chuàng)新出更完善的解決方案,幫助每一個(gè)使用DaoCloud Enterprise 5.0 產(chǎn)品的客戶獲得更好的體驗(yàn),助力企業(yè)數(shù)字化轉(zhuǎn)型的成功落地。
申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!