當前位置:首頁 >  IDC >  云計算 >  正文

湖倉一體的發(fā)展現(xiàn)狀及未來趨勢 深度解讀

 2022-08-18 11:44  來源: 互聯(lián)網(wǎng)   我來投稿 撤稿糾錯

  域名預訂/競價,好“米”不錯過

近日,賽迪顧問正式發(fā)布了國內(nèi)首份《湖倉一體技術(shù)研究報告》。對此,巨杉數(shù)據(jù)庫特邀賽迪顧問軟件與信息服務業(yè)研究專家,對《湖倉一體技術(shù)研究報告》進行了深入解讀。

伴隨數(shù)字化在各行各業(yè)的深化發(fā)展,企業(yè)不但需要面向業(yè)務的「交易核心」,同時更需要構(gòu)建面向企業(yè)全量數(shù)據(jù)價值的「數(shù)據(jù)核心」。不同于傳統(tǒng)「交易核心」往往僅針對特定業(yè)務系統(tǒng)解決其交易需求不同的是,「數(shù)據(jù)核心」需要匯聚從多個「交易核心」產(chǎn)生的實時交易流水數(shù)據(jù),為全企業(yè)跨業(yè)務的多個系統(tǒng)提供高并發(fā)的實時對客全量數(shù)據(jù)查詢及數(shù)據(jù)探索分析能力。湖倉一體技術(shù)借助海量、實時、多模的數(shù)據(jù)處理能力,實現(xiàn)全量數(shù)據(jù)價值的持續(xù)釋放,正成為企業(yè)數(shù)字化轉(zhuǎn)型過程中的備受關注焦點。

本次解讀分享,結(jié)合湖倉一體技術(shù)的發(fā)展歷程,對現(xiàn)階段業(yè)界重點產(chǎn)品,典型案例,未來趨勢等多方面內(nèi)容進行了剖析,綜合評判了湖倉一體技術(shù)的發(fā)展階段及未來應用場景。

· 湖倉一體技術(shù)的發(fā)展現(xiàn)狀

現(xiàn)階段,數(shù)據(jù)湖與數(shù)據(jù)倉庫的融合發(fā)展主要有三個技術(shù)路徑,根據(jù)不同路徑的技術(shù)特性,可以滿足不同場景下的客戶需求。

第一個是基于Hadoop體系的數(shù)據(jù)湖向數(shù)據(jù)倉庫能力擴展,在數(shù)據(jù)湖中建數(shù)據(jù)倉庫,通過引入數(shù)據(jù)倉庫的分析功能,從數(shù)據(jù)湖直接進化到湖倉一體。

第二個是基于自身云平臺進行架構(gòu)構(gòu)建,主要是公有云廠商基于自身云平臺或相關產(chǎn)品,通過自研技術(shù)打通數(shù)據(jù)湖與數(shù)據(jù)倉庫,實現(xiàn)湖倉一體功能。

第三個是以獨立數(shù)據(jù)庫廠商為代表的梯隊,其以數(shù)據(jù)庫技術(shù)為基礎,自研分布式平臺,從調(diào)度、計算到存儲不依賴第三方平臺,形成可以靈活在公有云、私有云、裸金屬等場景獨立部署的湖倉一體平臺。這類的代表廠商如海外的Snowflake,Databricks及國內(nèi)的巨杉數(shù)據(jù)庫等。

報告選取了業(yè)界比較主流的6個湖倉一體產(chǎn)品進行對比分析,包括海外廠商Snowflake、Databricks及亞馬遜AWS智能湖倉,國內(nèi)廠商巨杉數(shù)據(jù)庫SequoiaDB、阿里云MaxCompute湖倉一體方案、華為云FusionInsight。

從設計初衷來看,各家產(chǎn)品雖然技術(shù)路線不同,或自研,或基于開源,或基于自身云平臺的產(chǎn)品組合,但最終目的均一致是為了降低數(shù)據(jù)在不同平臺間的流動,這樣做的好處一方面是技術(shù)上可以降低客戶的管理成本,另一方面在商業(yè)上也提升了客戶粘性和操作體驗。比如像亞馬遜AWS、阿里云、華為云,會通過各類云上的工具打通不同產(chǎn)品或組件間的數(shù)據(jù)流通,而Snowflake、Databricks、巨杉數(shù)據(jù)庫則會盡可能讓同一平臺上的數(shù)據(jù)具備更豐富的應用場景。

從特性上來看,各個廠商均強調(diào)了ACID事物一致性,因為在湖倉一體中,數(shù)據(jù)不再如同傳統(tǒng)數(shù)據(jù)倉庫中的離線分析數(shù)據(jù),客戶的業(yè)務數(shù)據(jù)將更實時的以數(shù)據(jù)流的方式寫入。雖然湖倉一體不需要如同事務型數(shù)據(jù)庫一樣,擁有低延遲的在線交易能力,但是在數(shù)字化轉(zhuǎn)型需求下,系統(tǒng)同樣需要提供實時的數(shù)據(jù)查詢分析能力,及保證在某一時間點上數(shù)據(jù)的準確性。

整體分析后不難看出,Snowflake從數(shù)據(jù)倉庫逐步提供多元化的數(shù)據(jù)處理,其最新版本也進一步強化了數(shù)據(jù)實時服務能力。Databricks的優(yōu)勢在于對非結(jié)構(gòu)化數(shù)據(jù)處理的AI機器學習及科學計算上,并持續(xù)擴展其數(shù)據(jù)倉庫的分析能力。巨杉數(shù)據(jù)庫以統(tǒng)一平臺下跨結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的多模數(shù)據(jù)處理能力為基礎,重點提供高并發(fā)的實時對客查詢,并持續(xù)擴展實時湖倉的分析能力。亞馬遜AWS、阿里云、華為云則更注重于其基于自身云生態(tài)的技術(shù)能力整合,簡化了云平臺客戶在數(shù)據(jù)處理上的復雜度。

在報告中,也對湖倉一體的典型應用案例進行了分析,具體內(nèi)容可下載報告后進行閱讀。

· 湖倉一體技術(shù)的未來趨勢

分析來看,“湖倉一體”架構(gòu)在數(shù)據(jù)管理中呈現(xiàn)出六大技術(shù)特性。

一是支持分析多種數(shù)據(jù)類型,包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。

二是數(shù)據(jù)可治理,在保證數(shù)據(jù)完整性的同時,具有健全的治理和審計機制,能夠避免數(shù)據(jù)沼澤現(xiàn)象。

三是事務支持,企業(yè)數(shù)據(jù)往往要為業(yè)務系統(tǒng)提供并發(fā)的讀取和寫入,對事物ACID的支持,可確保數(shù)據(jù)并發(fā)訪問的一致性、正確性。

四是BI支持,能夠支持直接在源數(shù)據(jù)上使用BI工具,加快分析效率,降低數(shù)據(jù)延遲。

五是存算分離,使系統(tǒng)能夠擴展到更大規(guī)模的并發(fā)能力和數(shù)據(jù)容量。

六是開放型,采用開放、標準化的存儲格式,并提供豐富的API支持。

與此同時,隨著湖倉一體技術(shù)的不斷成熟,未來將在四大應用場景中發(fā)揮作用。

場景一:服務于數(shù)據(jù)中臺的實時數(shù)倉。由于數(shù)據(jù)中臺要求其數(shù)據(jù)庫在分析處理過程中,需強調(diào)事物一致性,并保持低延遲與提升實時處理能力,這些都是湖倉一體的典型技術(shù)特性。

場景二:支撐微服務的數(shù)據(jù)融合底座??捎行Ы鉀Q擴展困難以及維護困難的問題。

場景三:全量數(shù)據(jù)實時訪問平臺。在數(shù)字化轉(zhuǎn)型過程中,對客實時查詢,歷史數(shù)據(jù)服務平臺,或IoT物聯(lián)網(wǎng)系統(tǒng)中,會產(chǎn)生實時處理海量數(shù)據(jù)的需求,湖倉一體的彈性擴展能力能夠很好滿足這一需求。

場景四:進行非結(jié)構(gòu)化數(shù)據(jù)處理,數(shù)字化轉(zhuǎn)型中通過AI機器學習及比對分析,非結(jié)構(gòu)化數(shù)據(jù)將包含更多元化的業(yè)務屬性,為各類業(yè)務系統(tǒng)提供信息輸入。湖倉一體能夠有效提升非結(jié)構(gòu)化數(shù)據(jù)的處理能力。

更多內(nèi)容,歡迎搜索《湖倉一體技術(shù)研究報告》,下載完整版報告。

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關文章

熱門排行

信息推薦