1. 創(chuàng)業(yè)頭條
  2. 前沿領(lǐng)域
  3. 大數(shù)據(jù)
  4. 正文

將數(shù)據(jù)庫(kù)性能提升100倍?大數(shù)據(jù)時(shí)代中,一位數(shù)據(jù)庫(kù)老兵的創(chuàng)新之路

 2021-07-14 10:34  來(lái)源:互聯(lián)網(wǎng)  我來(lái)投稿 撤稿糾錯(cuò)

  域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過(guò)

當(dāng)前構(gòu)建大數(shù)據(jù)應(yīng)用的難點(diǎn)是什么?對(duì)于這個(gè)問(wèn)題,相信很多資深從業(yè)者都會(huì)回答:海量數(shù)據(jù)的高效處理與運(yùn)維。在大數(shù)據(jù)時(shí)代中,它是數(shù)據(jù)庫(kù)行業(yè)面臨的基礎(chǔ)性問(wèn)題,如何將它解決?既是挑戰(zhàn),也是機(jī)遇。

在無(wú)數(shù)數(shù)據(jù)庫(kù)行業(yè)的老將新兵中,我們注意到一批力圖解決大數(shù)據(jù)語(yǔ)境下,數(shù)據(jù)庫(kù)使用和運(yùn)維難題的“引路人”。今天,InfoQ的專訪對(duì)象---姚延棟,正是這批大數(shù)據(jù)“引路人”中的一個(gè)。

作為Greenplum的第三號(hào)員工,在過(guò)去十年間,姚延棟曾帶領(lǐng)團(tuán)隊(duì)將Greenplum打造成為世界排名第三的分析型數(shù)據(jù)庫(kù),創(chuàng)下由華人主導(dǎo)的數(shù)據(jù)庫(kù)產(chǎn)品最好排名。而在數(shù)據(jù)庫(kù)領(lǐng)域從業(yè)數(shù)十年后,他又選擇開(kāi)啟自己的創(chuàng)業(yè)之旅,與兩位合伙人共同創(chuàng)辦了一家名為四維縱橫的數(shù)據(jù)庫(kù)公司。那么,他為什么在這個(gè)時(shí)間點(diǎn)選擇創(chuàng)業(yè)?當(dāng)傳統(tǒng)行業(yè)的數(shù)字化轉(zhuǎn)型成為大勢(shì)所趨,數(shù)據(jù)庫(kù)領(lǐng)域又發(fā)生了什么新故事?我們帶著這些問(wèn)題,同四維縱橫創(chuàng)始人姚延棟一起聊聊數(shù)據(jù)庫(kù)的過(guò)去與未來(lái),挑戰(zhàn)與機(jī)遇。

行業(yè)中存在一種思維慣性

“創(chuàng)業(yè)是為了打破行業(yè)的慣性。”

“如果把數(shù)據(jù)庫(kù)領(lǐng)域比作一個(gè)大森林,那么我們就是對(duì)地形非常熟悉的原住民。當(dāng)有人想穿過(guò)大森林,卻不知該走哪條路的時(shí)候,我們就充當(dāng)“引路人”來(lái)幫助他們穿過(guò)森林。倘若沒(méi)有我們,那他們可能會(huì)按照自己的慣性去走。”

姚延棟在Greenplum效力的十年期間,最初主要從外圍模塊入手打造產(chǎn)品,后來(lái)逐步向核心邁進(jìn),打磨內(nèi)核模塊,直到團(tuán)隊(duì)駕馭整個(gè)數(shù)據(jù)庫(kù)內(nèi)核,他坦言這與農(nóng)村包圍城市的過(guò)程十分類似。在此期間,他發(fā)現(xiàn)行業(yè)中存在一種慣性思維,而創(chuàng)業(yè)的目的就是為了打破這種慣性。

那么,這個(gè)慣性到底指的是什么?

以時(shí)序場(chǎng)景為例,現(xiàn)在業(yè)內(nèi)普遍流行使用專用的時(shí)序數(shù)據(jù)庫(kù),典型的代表產(chǎn)品有InfluxDB、OpenTSDB 等,而與此同時(shí),幾乎所有場(chǎng)景都需要關(guān)系型數(shù)據(jù)庫(kù)。這樣一來(lái),大家就不得不引入多個(gè)數(shù)據(jù)庫(kù)產(chǎn)品,使得技術(shù)棧以及監(jiān)控運(yùn)維變得十分復(fù)雜。

雖然專用時(shí)序數(shù)據(jù)庫(kù)在一定程度上滿足了業(yè)務(wù)對(duì)于時(shí)序處理的需求,但也存在諸多問(wèn)題,其中性能低、擴(kuò)展性差的問(wèn)題尤為顯著。過(guò)去時(shí)序數(shù)據(jù)庫(kù)大多是為數(shù)據(jù)中心的服務(wù)器監(jiān)控、埋點(diǎn)數(shù)據(jù)處理等簡(jiǎn)單場(chǎng)景設(shè)計(jì)的,所以,其無(wú)法為物聯(lián)網(wǎng)等場(chǎng)景下的大量數(shù)據(jù)源和大量指標(biāo)提供支持。除此之外,開(kāi)發(fā)效率低、需要MPP數(shù)據(jù)庫(kù)或者大數(shù)據(jù)產(chǎn)品配合以及數(shù)據(jù)孤島化等方面,都是擺在從業(yè)者面前的難題。

應(yīng)運(yùn)而生的超融合時(shí)序數(shù)據(jù)庫(kù)

“我一直把數(shù)據(jù)庫(kù)的技術(shù)演進(jìn)和生物界的進(jìn)化類比去看。”

從上世紀(jì)60年代誕生起,數(shù)據(jù)庫(kù)技術(shù)就一直在不斷地演進(jìn)、迭代,其背后主要是兩股力量在推動(dòng):一股力量是性能問(wèn)題,另一股力量是效率問(wèn)題。

上世紀(jì)七八十年代,關(guān)系型數(shù)據(jù)庫(kù)開(kāi)始獨(dú)步天下,從業(yè)者主要是基于關(guān)系型數(shù)據(jù)庫(kù)來(lái)高效存儲(chǔ)和處理應(yīng)用開(kāi)發(fā)中用到的數(shù)據(jù);到了2000年左右,數(shù)據(jù)規(guī)模大幅增長(zhǎng),而大數(shù)據(jù)處理技術(shù)尚未展露雛形,整個(gè)社會(huì)對(duì)于浩瀚信息的處理仍處于比較迷茫的階段,以至于技術(shù)的迭代速度趕不上數(shù)據(jù)增長(zhǎng)的速度。自此,大數(shù)據(jù)處理的性能問(wèn)題開(kāi)始顯現(xiàn),數(shù)據(jù)庫(kù)領(lǐng)域隨之出現(xiàn)了時(shí)序數(shù)據(jù)庫(kù)、KV數(shù)據(jù)庫(kù)、文檔數(shù)據(jù)庫(kù)等專用數(shù)據(jù)庫(kù),以期解決性能從0到1的問(wèn)題。但由于應(yīng)用要與多個(gè)數(shù)據(jù)庫(kù)溝通,從多個(gè)數(shù)據(jù)庫(kù)讀取數(shù)據(jù)到應(yīng)用程序內(nèi)存中再進(jìn)行關(guān)聯(lián)、聚集以及合并等計(jì)算,很多數(shù)據(jù)處理邏輯被迫只能放在應(yīng)用中,開(kāi)發(fā)和運(yùn)維效率就不可避免地大打折扣。

如此一來(lái),為了解決效率問(wèn)題,行業(yè)中又出現(xiàn)了Presto等類型的產(chǎn)品,即在專用的數(shù)據(jù)庫(kù)上封裝一個(gè)查詢引擎,試圖把數(shù)據(jù)處理邏輯從應(yīng)用處理邏輯中剝離出來(lái)。這種方式雖然在一定程度上解決了開(kāi)發(fā)效率問(wèn)題,但性能仍是短板,且并未從根本上解決技術(shù)棧復(fù)雜的問(wèn)題。

我們可以看到,在進(jìn)化了近50年后,現(xiàn)有的數(shù)據(jù)庫(kù)技術(shù)已經(jīng)不能滿足從業(yè)者的需求 --- 他們需要更加簡(jiǎn)單易用、省心省力的數(shù)據(jù)庫(kù)。在這樣的背景下,為了能給用戶提供簡(jiǎn)單易用的接口,真正實(shí)現(xiàn)數(shù)據(jù)平民化,姚延棟和他的團(tuán)隊(duì)將關(guān)系數(shù)據(jù)庫(kù)、時(shí)序數(shù)據(jù)庫(kù)和分析數(shù)據(jù)庫(kù)融合在同一個(gè)數(shù)據(jù)庫(kù)產(chǎn)品中,打造了全球唯一一款PB級(jí)超融合時(shí)序數(shù)據(jù)庫(kù)--MatrixDB。

超融合時(shí)序數(shù)據(jù)庫(kù)解決了什么問(wèn)題?

目前,超融合時(shí)序數(shù)據(jù)庫(kù)主要應(yīng)用在兩大場(chǎng)景:第一,時(shí)序、時(shí)空?qǐng)鼍埃ǔJ俏锫?lián)網(wǎng)、工業(yè)互聯(lián)網(wǎng)、車聯(lián)網(wǎng)和智慧城市等領(lǐng)域;第二,實(shí)時(shí)數(shù)據(jù)分析場(chǎng)景。

談到時(shí)序、時(shí)空?qǐng)鼍?,姚延棟分享了一個(gè)海量設(shè)備、大量存儲(chǔ)的典型物聯(lián)網(wǎng)場(chǎng)景。“以一家做光纖和5G通訊設(shè)備的國(guó)際制造商為例,這家制造商大概有1000萬(wàn)設(shè)備,每臺(tái)設(shè)備每次都會(huì)采集300個(gè)指標(biāo)數(shù)據(jù),每次共計(jì)需要采集30億指標(biāo)。”基于這種情況下,MatrixDB實(shí)現(xiàn)了超大規(guī)模數(shù)據(jù)的實(shí)時(shí)加載特性,在保證低延遲和高并發(fā)加載的同時(shí),也減輕了系統(tǒng)資源消耗,充分將快速采集、高效存儲(chǔ) 的特性顯示了出來(lái),使得海量數(shù)據(jù)的存儲(chǔ)問(wèn)題、秒級(jí)采集的頻率要求都能得到完美的解決。

實(shí)時(shí)分析 的特性方面,姚延棟又給出了另一個(gè)案例:在一個(gè)實(shí)時(shí)數(shù)據(jù)分析的業(yè)務(wù)中,MatrixDB可以實(shí)現(xiàn)對(duì)IT運(yùn)營(yíng)域和OT生產(chǎn)域的數(shù)據(jù)收集,通過(guò)ETL/CDC和物聯(lián)網(wǎng)協(xié)議插入數(shù)據(jù)以后,便能將兩張網(wǎng)的數(shù)據(jù)整合在一起,使得公司的全部數(shù)據(jù)一目了然地展現(xiàn)。當(dāng)企業(yè)再基于這些數(shù)據(jù)進(jìn)行分析時(shí),就能得到更加精準(zhǔn)且全面的結(jié)論。

我們還注意到了MatrixDB的另一個(gè)重要特性——模塊化和可插拔 。專用時(shí)序數(shù)據(jù)庫(kù)通常包含存儲(chǔ)器和簡(jiǎn)單的執(zhí)行器,沒(méi)有優(yōu)化器和并發(fā)控制等關(guān)系數(shù)據(jù)庫(kù)經(jīng)典組件。從本質(zhì)上來(lái)看,它是把存儲(chǔ)器“做成”了數(shù)據(jù)庫(kù),以此來(lái)解決一個(gè)特定的問(wèn)題。而超融合時(shí)序數(shù)據(jù)庫(kù)則是把存儲(chǔ)器“做進(jìn)”數(shù)據(jù)庫(kù),通過(guò)把各個(gè)核心功能做到模塊化、可插拔,在一個(gè)關(guān)系數(shù)據(jù)庫(kù)內(nèi)部同時(shí)實(shí)現(xiàn)多種存儲(chǔ)引擎,以及跨存儲(chǔ)表關(guān)聯(lián)和ACID。 比如有200張表,其中190張是關(guān)系型數(shù)據(jù),這部分可以使用關(guān)系引擎存儲(chǔ);剩余10張是時(shí)序數(shù)據(jù),就可以使用時(shí)序引擎存儲(chǔ),且它們可以相互關(guān)聯(lián)。

與傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)+專用時(shí)序數(shù)據(jù)庫(kù)相結(jié)合的架構(gòu)相比,通過(guò)支持多種存儲(chǔ)引擎,超融合時(shí)序數(shù)據(jù)庫(kù)可以讓性能快10-100倍,同時(shí)大幅降低成本,提升開(kāi)發(fā)運(yùn)維效率。

令人驚喜的是,除了快速采集、高效存儲(chǔ)、實(shí)時(shí)分析以及模塊化和可插拔特性以外,我們注意到MatrixDB作為一款數(shù)據(jù)庫(kù)產(chǎn)品,還提供了機(jī)器學(xué)習(xí)的能力。 隨著人工智能技術(shù)的飛速發(fā)展,In-Database Machine Learning成為一個(gè)值得關(guān)注的方向,將機(jī)器學(xué)習(xí)的算法內(nèi)置到數(shù)據(jù)庫(kù)將逐漸成為主流。一方面,借助分布式數(shù)據(jù)庫(kù)的并行計(jì)算能力,可以使計(jì)算速度超越單機(jī);另一方面,由于單機(jī)上的內(nèi)存有限,在數(shù)據(jù)量很大的情況下,只能抽樣進(jìn)行訓(xùn)練,模型精度就會(huì)變差。通過(guò)In-Database Machine Learning模式,就能實(shí)現(xiàn)在全量數(shù)據(jù)上訓(xùn)練,模型精度也將得到進(jìn)一步提高。

“過(guò)去從業(yè)者需要自己寫程序才能實(shí)現(xiàn)機(jī)器學(xué)習(xí)。”這是姚延棟提到的一個(gè)現(xiàn)象,并表示這其中的技術(shù)門檻比較高。“目前,MatrixDB數(shù)據(jù)庫(kù)通過(guò)直接提供SQL接口,大大降低了機(jī)器學(xué)習(xí)的門檻,能夠在一定程度上緩解人才稀缺的問(wèn)題”。

下一步怎么走?

“未來(lái)我們會(huì)繼續(xù)在性能和效率兩個(gè)維度持續(xù)發(fā)力,并沿著更智能的方向去發(fā)展。” 落實(shí)到具體的業(yè)務(wù)層面,姚延棟表示會(huì)在提升易用性、構(gòu)建生態(tài)兩個(gè)方面重點(diǎn)發(fā)力。

眾所周知,數(shù)據(jù)庫(kù)運(yùn)維對(duì)于從業(yè)者來(lái)說(shuō)是一個(gè)很大的挑戰(zhàn),也因此衍生出了數(shù)據(jù)庫(kù)運(yùn)維這個(gè)行業(yè)。尤其在分布式數(shù)據(jù)庫(kù)環(huán)境中,節(jié)點(diǎn)數(shù)量多以及需求多樣化的特點(diǎn),使得運(yùn)維的難度更是大幅增加。姚延棟表示:“今后,我們將繼續(xù)致力于降低數(shù)據(jù)庫(kù)的使用門檻,使數(shù)據(jù)庫(kù)有能力提供自動(dòng)性能調(diào)優(yōu)、健康檢查等功能。”

在構(gòu)建生態(tài)的方面,他也給出了更高層面的考慮。數(shù)據(jù)庫(kù)是基礎(chǔ)軟件,沒(méi)有人能夠只使用數(shù)據(jù)庫(kù)就解決業(yè)務(wù)問(wèn)題,必須與很多周邊產(chǎn)品搭配,才能發(fā)揮真正的價(jià)值。因此,對(duì)于數(shù)據(jù)庫(kù)產(chǎn)品來(lái)說(shuō),生態(tài)的重要性不言而喻。“如果沒(méi)有生態(tài),我們相當(dāng)于把復(fù)雜度問(wèn)題扔給了用戶,聯(lián)合行業(yè)內(nèi)上下游共建生態(tài)是我們接下來(lái)的方向”。

"數(shù)據(jù)庫(kù)能定義未來(lái)記憶。" 由于MatrixDB數(shù)據(jù)庫(kù)更多應(yīng)用于物聯(lián)網(wǎng)、車聯(lián)網(wǎng)、工業(yè)互聯(lián)網(wǎng)和智慧生活等場(chǎng)景,姚延棟也與InfoQ談到了他對(duì)于萬(wàn)物互聯(lián)時(shí)代中數(shù)據(jù)庫(kù)的理解,萬(wàn)物互聯(lián)的目的是為了更智能化,而智能的前提是基于記憶,但事物本身是沒(méi)有記憶能力的,如風(fēng)力發(fā)電機(jī)、智能手環(huán)等等。“未來(lái)我們希望通過(guò)超融合時(shí)序數(shù)據(jù)庫(kù),賦予一些沒(méi)有記憶能力的設(shè)備以記憶,為智能衍生出更多的可能性。”

萬(wàn)物互聯(lián)時(shí)代的智能化到底會(huì)是什么樣?這個(gè)問(wèn)題還未有定論,仍然需要等待技術(shù)隨著時(shí)代不斷演進(jìn),不斷進(jìn)化才能得到答案。但可以肯定的是,在這之前先建立起事物的記憶能力,能夠?yàn)椴贿h(yuǎn)的智能化時(shí)代奠定基礎(chǔ)。

談及數(shù)據(jù)庫(kù)和四維縱橫的未來(lái),姚延棟希望能夠讓數(shù)據(jù)處理簡(jiǎn)單到像用電、用氣、用水一樣,把MatrixDB數(shù)據(jù)庫(kù)打造成一個(gè)真正的一站式數(shù)據(jù)處理平臺(tái),讓從業(yè)者在進(jìn)行數(shù)據(jù)處理時(shí),不再需要關(guān)心底層的數(shù)據(jù)存儲(chǔ)以及計(jì)算的復(fù)雜性。這是四維縱橫正在探索的方向,也是行業(yè)共同努力的終極目標(biāo)。

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)標(biāo)簽
數(shù)據(jù)庫(kù)
大數(shù)據(jù)

相關(guān)文章

  • 百望云獲評(píng)“中國(guó)大數(shù)據(jù)獨(dú)角獸” 數(shù)實(shí)相融 算啟未來(lái)

    隨著數(shù)字中國(guó)戰(zhàn)略的步步落實(shí),大數(shù)據(jù)已經(jīng)成為錨定戰(zhàn)略定位、搶得市場(chǎng)先機(jī)的重要基礎(chǔ)元素。為彰顯行業(yè)發(fā)展現(xiàn)狀,遴選、推薦優(yōu)秀企業(yè),長(zhǎng)城戰(zhàn)略咨詢近日在2023中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)期間,重磅發(fā)布《中國(guó)大數(shù)據(jù)獨(dú)角獸企業(yè)榜單》,根據(jù)獨(dú)角獸企業(yè)國(guó)家推薦性標(biāo)準(zhǔn),篩選出259家2022年中國(guó)大數(shù)據(jù)(潛在)獨(dú)角獸企業(yè)

    標(biāo)簽:
    大數(shù)據(jù)
  • 學(xué)術(shù)引領(lǐng) 數(shù)智健康:2023北京健康醫(yī)療大數(shù)據(jù)論壇六月北京盛大開(kāi)啟

    2023年6月15日至18日,2023北京健康醫(yī)療大數(shù)據(jù)論壇、醫(yī)促會(huì)華夏健康數(shù)據(jù)與數(shù)字醫(yī)學(xué)高峰論壇、第三屆中華預(yù)防醫(yī)學(xué)會(huì)腎臟病預(yù)防與控制專業(yè)委員會(huì)學(xué)術(shù)會(huì)議將同期于北京舉行。論壇以“學(xué)術(shù)引領(lǐng)數(shù)智健康”為主題,著眼國(guó)家戰(zhàn)略需求,聚焦前沿科技在健康醫(yī)療領(lǐng)域的發(fā)展與實(shí)踐,薈萃全球頂尖學(xué)術(shù)觀點(diǎn),促進(jìn)多方跨界融

    標(biāo)簽:
    大數(shù)據(jù)
  • 數(shù)據(jù)庫(kù)“國(guó)家隊(duì)”人大金倉(cāng)亮相數(shù)字中國(guó)建設(shè)峰會(huì)

    中國(guó)經(jīng)濟(jì)周刊-經(jīng)濟(jì)網(wǎng)訊(記者宋杰)4月27日,第六屆數(shù)字中國(guó)建設(shè)峰會(huì)在福州開(kāi)幕,同期舉行的還有數(shù)字中國(guó)建設(shè)成果展覽會(huì),本屆峰會(huì)以“加快數(shù)字中國(guó)建設(shè),推進(jìn)中國(guó)式現(xiàn)代化”為主題,集中展示數(shù)字中國(guó)建設(shè)最新成果和優(yōu)秀實(shí)踐案例,分享發(fā)展經(jīng)驗(yàn)。其中,作為央企中國(guó)電科集團(tuán)旗下的數(shù)據(jù)庫(kù)國(guó)家隊(duì),人大金倉(cāng)今年展出面積從

    標(biāo)簽:
    數(shù)據(jù)庫(kù)
  • 擎起科技自強(qiáng)旗幟,引領(lǐng)產(chǎn)業(yè)智造未來(lái)——谷器數(shù)據(jù)入庫(kù)北京市科技型中小企業(yè)

    近日,北京市科學(xué)技術(shù)委員會(huì)、中關(guān)村科技園區(qū)管理委員會(huì)公示了北京市2023年第2批科技型中小企業(yè)名單,谷器數(shù)據(jù)借助優(yōu)秀的科技自主創(chuàng)新能力成功入選。此次評(píng)價(jià)指標(biāo)圍繞科研人員、研發(fā)投入、科技成果等三個(gè)維度,成功入選科技型中小企業(yè)是對(duì)谷器數(shù)據(jù)專業(yè)化發(fā)展、自主創(chuàng)新能力、產(chǎn)品技術(shù)實(shí)力的激勵(lì)與肯定??萍夹椭行∑髽I(yè)

    標(biāo)簽:
    大數(shù)據(jù)
  • 獲中國(guó)科學(xué)院褒獎(jiǎng) | 谷器數(shù)據(jù)產(chǎn)品榮膺2022年度最佳!

    評(píng)審寄語(yǔ)面向車間現(xiàn)場(chǎng)生產(chǎn)制造過(guò)程的數(shù)字化管理,谷器數(shù)據(jù)SupplyX·MES通過(guò)推動(dòng)更有效的工廠運(yùn)行和現(xiàn)場(chǎng)效率,提供從接收生產(chǎn)計(jì)劃到制成最終產(chǎn)品全過(guò)程的生產(chǎn)活動(dòng)實(shí)現(xiàn)優(yōu)化的信息,成為新型工業(yè)化的標(biāo)桿力量!近日,由中國(guó)科學(xué)院《互聯(lián)網(wǎng)周刊》、中國(guó)社會(huì)科學(xué)院信息化研究中心等機(jī)構(gòu)聯(lián)合主辦的“2023(第八屆)

    標(biāo)簽:
    大數(shù)據(jù)

熱門排行

編輯推薦