我認(rèn)為,在未來 3 年內(nèi),這三個(gè)類別——APM、監(jiān)測/指標(biāo)、日志,可能還有其他類別——都可能不復(fù)存在。將只存在一個(gè)類別:可觀測性。并且它將包含您需要了解的,系統(tǒng)可以進(jìn)入任何狀態(tài)所需的所有見解。
——Charity Majors, CEO Honeycomb
近日,由中國信通院發(fā)布的《中國數(shù)字經(jīng)濟(jì)發(fā)展報(bào)告(2022年)》數(shù)據(jù)顯示,中國數(shù)字經(jīng)濟(jì)發(fā)展始終呈現(xiàn)穩(wěn)中向好的發(fā)展態(tài)勢,產(chǎn)業(yè)規(guī)模持續(xù)快速增長,已數(shù)年穩(wěn)居世界第二。在 2021 年,中國數(shù)字經(jīng)濟(jì)規(guī)模已超 45 萬億元,占國內(nèi)生產(chǎn)總值 39.8%,在國民經(jīng)濟(jì)中的地位更加穩(wěn)固、支撐作用更加明顯。
在產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型提速升級(jí)過程中,基于云計(jì)算的技術(shù)創(chuàng)新與產(chǎn)品應(yīng)用起到了重要作用,從底層的基礎(chǔ)設(shè)施框架,到上層的業(yè)務(wù)流程定義,都在持續(xù)進(jìn)化并已顛覆很多傳統(tǒng)思維與模式。今年,又誕生許多新熱點(diǎn)技術(shù)和方法,「可觀測性」(Observability)成為其中佼佼者之一。
日趨成熟的可觀測性工具,配合已實(shí)踐多年的「系統(tǒng)可靠性工程」(SRE),打破了對原有開發(fā)運(yùn)維體系的認(rèn)知瓶頸。系統(tǒng)本身是否具備可觀測性,和是否有合適的可觀測方案守護(hù),已成為能否保障系統(tǒng)穩(wěn)定性的最關(guān)鍵前提。運(yùn)維不再限制于僵化的變更流程,開發(fā)可以隨時(shí)享受可編程基礎(chǔ)設(shè)施帶來的便利,測試和安全加固貫穿整個(gè)開發(fā)運(yùn)維過程,系統(tǒng)所有的實(shí)時(shí)運(yùn)行狀態(tài)都盡在掌控,潛在的風(fēng)險(xiǎn)可被提前預(yù)測,用數(shù)字化的手段,才是管理數(shù)字系統(tǒng)的最佳方案。
大型企業(yè)或可憑借自身強(qiáng)大的技術(shù)實(shí)力與持續(xù)性的產(chǎn)研投入,自建一套全鏈路可觀測平臺(tái),但即便如此,隨著應(yīng)用不斷迭代,或技術(shù)棧版本快速更新,仍要面對頻繁調(diào)整監(jiān)測參數(shù)的巨大工作量;若中小企業(yè)或初創(chuàng)團(tuán)隊(duì),僅建設(shè)這樣一套全鏈路可觀測平臺(tái),就已大大超出其技術(shù)和運(yùn)維能力承受范圍。
8 月 27 日,觀測云首席布道師——吳亞昆作為「DataFunSummit2022:數(shù)據(jù)治理在線峰會(huì)」的「數(shù)據(jù)可觀測性」主題論壇出品人,特別邀請到了觀測云、睿象云、貨拉拉、中國 SRE 聯(lián)盟、阿里云、同創(chuàng)永益等業(yè)內(nèi)知名企業(yè)和團(tuán)隊(duì)的技術(shù)專家,在線分享討論具備代表性的超大平臺(tái)可觀測性解決方案與行業(yè)實(shí)踐,以及如何讓初創(chuàng)企業(yè)也能開啟全面可觀測能力的落地場景。
觀測云與合作伙伴的應(yīng)用實(shí)踐探索
1、睿象云:告警,為可觀測性平臺(tái)分析提供可靠「現(xiàn)象」
睿象云技術(shù)總監(jiān)王金良從可觀測性的整體形態(tài)出發(fā),圍繞告警在可觀測系統(tǒng)的核心功能、價(jià)值和最佳實(shí)踐展開,發(fā)表《可觀測系統(tǒng)中的告警管理實(shí)踐》主題分享。
王金良表示,可觀測性并不是在取代監(jiān)控,它更像是描述一種屬性的范疇,是一種能力的體現(xiàn)形式,越復(fù)雜的系統(tǒng)越需要這種屬性或能力。
告警作為 IT 運(yùn)維信號(hào)總量的金字塔尖,對于可觀測性接下來的流轉(zhuǎn)及判斷起著至關(guān)重要作用。而統(tǒng)一的、準(zhǔn)確的、智能化的告警平臺(tái)的誕生,為可觀測性平臺(tái)的分析,提供了更為可靠的「現(xiàn)象」,可幫助運(yùn)維人員接下來分析原因引導(dǎo)方向。
2、 觀測云:數(shù)據(jù)治理視角下的可觀測性
觀測云高級(jí)技術(shù)專家張?zhí)锇l(fā)表《數(shù)據(jù)治理視角下的可觀測性》主題分享,并以數(shù)據(jù)資產(chǎn)管理場景為例,深入淺出地闡述可觀測性對系統(tǒng)穩(wěn)定運(yùn)行的重要性。
張?zhí)锉硎?,「可觀測性」表示收集一個(gè)系統(tǒng)的所有指標(biāo)、日志以及鏈路追蹤數(shù)據(jù),并通過一定的治理手段使這些數(shù)據(jù)有機(jī)結(jié)合,以合適的方式呈現(xiàn)出來,最終幫助用戶更好地來理解和解釋系統(tǒng)當(dāng)前所處的狀態(tài)。
以數(shù)據(jù)資產(chǎn)管理場景為例,治理后資產(chǎn)用什么方式對上層應(yīng)用提供服務(wù),這些對外服務(wù)如何管控,誰使用了數(shù)據(jù),用了多少數(shù)據(jù),使用體驗(yàn)如何,都是對治理效果的一次定量化衡量。這個(gè)衡量過程的核心就是系統(tǒng)的可觀測性。觀測云目前的統(tǒng)一可觀測能力已經(jīng)非常成熟,實(shí)現(xiàn)這個(gè)能力的基礎(chǔ)就是數(shù)據(jù)關(guān)聯(lián),做到統(tǒng)一數(shù)據(jù)展示、數(shù)據(jù)查詢、數(shù)據(jù)分析與數(shù)據(jù)報(bào)表展示。
3、貨拉拉:依托強(qiáng)大的技術(shù)團(tuán)隊(duì),實(shí)現(xiàn)全鏈路可視化監(jiān)控
在本期主題論壇現(xiàn)場,貨拉拉架構(gòu)師曹偉帶來《貨拉拉全鏈路監(jiān)控的落地與實(shí)踐》精彩主題分享。
曹偉介紹道,貨拉拉成立于 2013 年,是互聯(lián)網(wǎng)貨運(yùn)物流市場中的頭部品牌,隨著貨拉拉的業(yè)務(wù)規(guī)模不斷壯大,原來的系統(tǒng)架構(gòu)已無法滿足業(yè)務(wù)需求,因此自 2020 年起,貨拉拉便著手對業(yè)務(wù)系統(tǒng)監(jiān)控全面改革。
依托強(qiáng)大的技術(shù)團(tuán)隊(duì)和深厚的技術(shù)積累,歷經(jīng)兩年重重測試與不斷調(diào)整,貨拉拉串聯(lián) Metric、Trace、Log 和業(yè)務(wù),實(shí)現(xiàn)全鏈路可視化監(jiān)控閉環(huán),完成「所見即所得」的監(jiān)控可視化建設(shè)。
曹偉現(xiàn)場表示,貨拉拉自研的可觀測系統(tǒng)得益于公司多年深厚的技術(shù)積累和研發(fā)恒心,目前貨拉拉監(jiān)控 3.x 已實(shí)現(xiàn)快速定位、全局穩(wěn)定性、微服務(wù)治理、高 ROI 等效果,未來將對自研存儲(chǔ)、根因分析、指標(biāo)告警聯(lián)動(dòng)、服務(wù)拓?fù)?、回饋開源社區(qū)等方面持續(xù)投入。
4、 中國 SRE 聯(lián)盟 :首席布道師劉峰 , SRE 的核心理念與可觀測性
在本次「數(shù)據(jù)可觀測性」主題論壇直播間,中國 SRE 聯(lián)盟首席布道師劉峰為觀看直播的觀眾帶來《SRE 的核心理念與可觀測性》精彩主題演講。
劉峰表示,分布式、復(fù)雜的服務(wù)以不可預(yù)測的用戶和可變吞吐量大規(guī)模運(yùn)行,這意味著有數(shù)百萬種不同的方法出錯(cuò),但卻不能預(yù)測它們,將服務(wù)的所有輸出外部化,使我們能夠推斷該服務(wù)的內(nèi)部狀態(tài),即服務(wù)的可觀測性是建設(shè)云時(shí)代 IT 系統(tǒng)時(shí)的剛需。伴隨 DevOps、SRE 的全面到來和技術(shù)棧持續(xù)升級(jí)迭代,可觀測性與 SRE 工程 、開發(fā)和運(yùn)維、應(yīng)用與系統(tǒng)環(huán)境、軟件工程與系統(tǒng)工程等之間逐漸形成引入和推動(dòng)的「奇點(diǎn)」效應(yīng):同根同源,共生共進(jìn);無中生有,有中生新。
SRE 工程、可觀測性技術(shù)與應(yīng)用實(shí)踐的最終目的,都是通過新興科學(xué)技術(shù)構(gòu)建穩(wěn)定的系統(tǒng),用可靠的服務(wù)提升企業(yè)交付價(jià)值,助力數(shù)字化業(yè)務(wù)增長。
5、SLS:云原生可觀測平臺(tái),助力業(yè)務(wù)數(shù)字化創(chuàng)新
隨著云計(jì)算技術(shù)不斷升級(jí),承載業(yè)務(wù)的 IT 基礎(chǔ)設(shè)施規(guī)模擴(kuò)大,各個(gè)應(yīng)用之間的鏈路關(guān)系變得越來越復(fù)雜,每時(shí)每刻都在產(chǎn)生海量級(jí)的日志。對日志數(shù)據(jù)的采集、存儲(chǔ)與分析處理方式,是衡量企業(yè)系統(tǒng)數(shù)字化程度的重要標(biāo)志。
來自阿里云的智能產(chǎn)品專家孟威表示,面對業(yè)務(wù)數(shù)字化,傳統(tǒng)的 IT 運(yùn)維方案存在多種挑戰(zhàn),需要能打通可觀測數(shù)據(jù),快速根因診斷與問題定位,方便易用的新一代運(yùn)維方案。日志服務(wù) SLS,可提供一站式日志數(shù)據(jù)采集、加工、查詢與分析、可視化、告警、消費(fèi)與投遞等功能,全面提升研發(fā)、運(yùn)維、運(yùn)營、安全等場景的數(shù)字化能力。
6、同創(chuàng)永益:數(shù)字韌性,數(shù)字化業(yè)務(wù)連續(xù)性下一站
同創(chuàng)永益鄭陽作為最后一位嘉賓出場,帶來《數(shù)字韌性:數(shù)字化業(yè)務(wù)連續(xù)性下一站》主題分享。
鄭陽表示,企業(yè)上云在為業(yè)務(wù)增長帶來提升的同時(shí),也帶來了新的風(fēng)險(xiǎn)與挑戰(zhàn)。伴隨業(yè)務(wù)云化程度加深,最大的挑戰(zhàn)就是系統(tǒng)鏈路的復(fù)雜性,一個(gè)小的變更就有可能觸發(fā)大面積的系統(tǒng)混亂、故障和服務(wù)中斷。
混沌工程的出現(xiàn),讓人們對復(fù)雜分布式系統(tǒng)在生產(chǎn)環(huán)境中抵御突發(fā)事件的能力有了信心。利用混沌工程可驗(yàn)證、保障系統(tǒng)穩(wěn)定性,比如在 Kubernetes 平臺(tái)上快速驗(yàn)證其高可用性、彈性、可觀測性。
縱觀全國上下各企業(yè)的可觀測性建設(shè),目前普遍處于探索階段,但站在中國可觀測性的起點(diǎn),從技術(shù)范式顛覆的視角來看,系統(tǒng)的可觀測性將成為企業(yè)數(shù)字化轉(zhuǎn)型的典型特征。
中國的可觀測性始于觀測云
作為中國可觀測性領(lǐng)域的領(lǐng)頭羊,觀測云自今年 4 月正式發(fā)布以來,已榮獲中國信通院頒發(fā)的「可觀測性平臺(tái)技術(shù)能力」最高級(jí)別「先進(jìn)級(jí)」認(rèn)證、可信云企業(yè)級(jí) SaaS 服務(wù)認(rèn)證等多項(xiàng)國家級(jí)獎(jiǎng)項(xiàng),入選 CNCF 云原生全景圖的 Observability and Analysis 板塊,全面兼容 OpenTelemetry,數(shù)據(jù)接口全部開放。此外還提供強(qiáng)大的自定義編程功能,可接入物聯(lián)網(wǎng)、云平臺(tái)賬單等各種跨平臺(tái)數(shù)據(jù)源。
除提供開源組件外,觀測云還支持 SaaS 版按量計(jì)費(fèi)模式,以及全功能的,可以本地部署的「社區(qū)版」供廣大技術(shù)愛好者免費(fèi)試用體驗(yàn),極大降低了可觀測能力平臺(tái)的建設(shè)門檻,讓初創(chuàng)團(tuán)隊(duì)甚至個(gè)人,都可以快速體驗(yàn)到最先進(jìn)和完整的可觀測能力。
聰明的團(tuán)隊(duì)會(huì)觀測 ,一個(gè)成熟的技術(shù)團(tuán)隊(duì)就應(yīng)該掌握通過數(shù)據(jù)視角去分析問題,統(tǒng)一地建立整個(gè)系統(tǒng)可觀測性是 DevOps 和 SRE 能夠落地的充分必要條件。
觀測云始終堅(jiān)持以數(shù)據(jù)為核心、價(jià)值為驅(qū)動(dòng),秉承開放創(chuàng)新發(fā)展的理念,持續(xù)增強(qiáng)技術(shù)與產(chǎn)品研發(fā)投入,提供優(yōu)質(zhì)的可觀測性產(chǎn)品體驗(yàn),助力企業(yè)、技術(shù)團(tuán)隊(duì)及個(gè)人系統(tǒng)的可觀測性系統(tǒng)建設(shè),為企業(yè)數(shù)字化轉(zhuǎn)型提供最大化的價(jià)值,并攜手各方生態(tài)合作伙伴,共同為中國可觀測性的發(fā)展貢獻(xiàn)力量。
申請創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!