國產(chǎn)數(shù)據(jù)庫領(lǐng)域有人“破世界紀(jì)錄”了 ,創(chuàng)紀(jì)錄達(dá)7.6倍!
最近中國軟件網(wǎng)注意到一份數(shù)據(jù)庫前沿技術(shù)領(lǐng)域的測試報(bào)告——《TuGrpah基于LDBC-SNB的測試報(bào)告》。http://ldbcouncil.org/sites/default/files/LDBC_SNB_I_20200726_SF30-100-300_tugraph.pdf
這是國際圖數(shù)據(jù)非盈利組織針對(duì)國內(nèi)的一款圖數(shù)據(jù)庫產(chǎn)品發(fā)布的一份專業(yè)報(bào)告,是備受關(guān)注的圖數(shù)據(jù)庫領(lǐng)域的權(quán)威基準(zhǔn)測試報(bào)告。
就是在這份報(bào)告,費(fèi)馬科技用數(shù)據(jù)證明:他們公司推出的圖數(shù)據(jù)庫產(chǎn)品——TuGraph,在嚴(yán)格準(zhǔn)守LDBC-SNB規(guī)范中的測試中,比LDBC官網(wǎng)目前排名第一的圖數(shù)據(jù)庫產(chǎn)品要好得多。
報(bào)告結(jié)果顯示,TuGraph的得分接近或超過5000。這一結(jié)果遠(yuǎn)高于目前LDBC-SNB已經(jīng)公布的最高紀(jì)錄(由Virtuoso保持),約為當(dāng)前紀(jì)錄的7.6倍。
圖1. 審計(jì)測試成功的聲明頁截圖(含認(rèn)證審計(jì)員,LDBC SNB任務(wù)組主任和費(fèi)馬科技CTO的簽名)
數(shù)據(jù)庫一直是我國IT核心技術(shù)中內(nèi)心深處的痛。圖數(shù)據(jù)庫是數(shù)據(jù)庫領(lǐng)域非常重要的一個(gè)發(fā)展方向,也是很多新興數(shù)據(jù)庫廠商希望能成為獨(dú)角獸的土壤。正是圖數(shù)據(jù)庫、正是這個(gè)結(jié)果,引起了中國軟件網(wǎng)的關(guān)注。
關(guān)于LDBC與SNB測試
關(guān)聯(lián)數(shù)據(jù)基準(zhǔn)委員會(huì)(LDBC,Linked Data Benchmark Council)是由廠商成員、非盈利組織成員、個(gè)人成員共同組成的,匯聚了各界圖數(shù)據(jù)領(lǐng)域的學(xué)者,共同推進(jìn)圖數(shù)據(jù)發(fā)展。就像TPC(Transaction Processing Performance Council,事務(wù)處理性能委員會(huì))是制定商務(wù)應(yīng)用基準(zhǔn)程序的標(biāo)準(zhǔn)規(guī)范、性能和價(jià)格度量,并管理測試結(jié)果發(fā)布的機(jī)構(gòu)。LDBC是圖(Graph)和RDF數(shù)據(jù)管理的基準(zhǔn)指南制定者與測試結(jié)果發(fā)布機(jī)構(gòu)。
社交網(wǎng)路基準(zhǔn)(SNB,Social Network Benchmark)是關(guān)聯(lián)數(shù)據(jù)基準(zhǔn)委員會(huì)(LDBC)發(fā)布的基準(zhǔn)測試程序之一。它通過兩個(gè)典型場景來評(píng)價(jià)圖數(shù)據(jù)庫。這兩個(gè)場景分別是:
•交互場景(interactive), 事務(wù)查詢?nèi)蝿?wù)(transaction query workload),類似OLTP。
•商務(wù)智能場景(business intelligence),統(tǒng)計(jì)查詢?nèi)蝿?wù)(analytical query workload) ,類似OLAP。
目前,LDBC-SNB Benchmark(http://ldbcouncil.org/benchmarks/snb)是數(shù)據(jù)庫業(yè)界權(quán)威的衡量圖數(shù)據(jù)庫和圖數(shù)據(jù)管理系統(tǒng)的重要參照標(biāo)準(zhǔn)。LDBC采用開源的做法,遵循GPLv3。它的基準(zhǔn)(Benchmark)標(biāo)準(zhǔn)文檔,評(píng)估基準(zhǔn)要用到軟件和工具的源碼,以及問題跟蹤、技術(shù)文檔都發(fā)布在開源網(wǎng)站上。
關(guān)于測試過程
費(fèi)馬科技從測試環(huán)境準(zhǔn)備,測試數(shù)據(jù)生成和導(dǎo)入,測試?yán)绦颍≒lugins)的安裝和執(zhí)行,以及結(jié)果正確性的驗(yàn)證,整個(gè)過程由LDBC指定的第三方在亞馬遜公有云上進(jìn)行,過程中所使用的所有程序和腳本都是公開的,并且整個(gè)測試流程由第三方人員完成,保證測試過程的公正、公平、公開。測試結(jié)果和測試代碼需交由LDBC執(zhí)行委員會(huì)審核通過。
測試的目標(biāo)包括圖數(shù)據(jù)的數(shù)據(jù)加載速度,數(shù)據(jù)存儲(chǔ)規(guī)模,功能正確性和性能指標(biāo)。本次測試,費(fèi)馬科技用LDBC的數(shù)據(jù)生成工具(datagen)生成了SF30,SF100,SF300三個(gè)大小不同的數(shù)據(jù)集,分別代表大小為30G,100G和300G的社交網(wǎng)絡(luò)數(shù)據(jù),充分反映數(shù)據(jù)庫在不同數(shù)據(jù)規(guī)模下的表現(xiàn)的穩(wěn)定性。
下表列出了交互場景的測試結(jié)果,其中的吞吐率(OPS)的意思是每秒完成的操作次數(shù)。
表1. 不同數(shù)據(jù)規(guī)模SF30(30GB),SF100(100GB)和SF300(300GB)的測試結(jié)果
上表是交互場景(interactive)的測試結(jié)果,每項(xiàng)持續(xù)時(shí)間超過兩個(gè)小時(shí),操作數(shù)達(dá)到數(shù)千萬,而TuGraph在保證100%的查詢及時(shí)率的前提下,吞吐率達(dá)到5000上下,實(shí)屬不易。這里的查詢及時(shí)率指的是每一個(gè)查詢結(jié)果均能在給定的延遲要求里返回,院高于標(biāo)準(zhǔn)要求的95%,展現(xiàn)了TuGraph穩(wěn)定的運(yùn)行效率。就吞吐率而言,TuGraph為當(dāng)前紀(jì)錄的7.6倍,這在商業(yè)數(shù)據(jù)庫中非常難能可貴。
幫助銀行識(shí)別個(gè)人信貸詐騙團(tuán)伙
TuGraph的主要貢獻(xiàn)者之一,費(fèi)馬科技CTO朱曉偉是清華大學(xué)圖數(shù)據(jù)庫研究方向的博士。在朱曉偉看來,這是值得驕傲的成績。這表明費(fèi)馬科技在數(shù)據(jù)庫發(fā)展的最新前沿——圖數(shù)據(jù)庫方面走在了世界前列,將國內(nèi)自主研發(fā)的技術(shù),推向了世界。
更重要的是,正是有這樣突出的性能表現(xiàn),費(fèi)馬圖數(shù)據(jù)庫產(chǎn)品和技術(shù)為客戶創(chuàng)造了真正的價(jià)值,幫助客戶解決了一些長期以來難以著手的問題。
陳亮是沅啟融安的CTO。沅啟融安是一家專注于從事風(fēng)險(xiǎn)控制領(lǐng)域的專業(yè)咨詢與技術(shù)服務(wù)公司,他們的主營業(yè)務(wù)是為大型銀行風(fēng)險(xiǎn)管理部提供深度服務(wù)。
他向中國軟件網(wǎng)介紹了一個(gè)用圖數(shù)據(jù)解決的金融風(fēng)控場景——信用卡等銀行個(gè)人信貸團(tuán)伙詐騙。
詐騙團(tuán)伙會(huì)用非法渠道獲取的大量身份證向銀行提出信用卡申請(qǐng)。這些身份證所代表的人員信息銀行系統(tǒng)并不全部掌握,以致部分有潛在風(fēng)險(xiǎn)的申請(qǐng)會(huì)被銀行通過。詐騙者將通過的部分進(jìn)行提現(xiàn)或消費(fèi),但不還款。一旦出現(xiàn)這種情況,該項(xiàng)消費(fèi)大概率會(huì)成為銀行的壞賬。
為此,銀行的風(fēng)險(xiǎn)管理部門一直希望能有一項(xiàng)技術(shù),在信用卡申請(qǐng)時(shí),就能從申請(qǐng)時(shí)提交的相關(guān)信息中發(fā)現(xiàn)蛛絲馬跡,將這些具有詐騙意圖的人識(shí)別出來。
傳統(tǒng)基于關(guān)系型數(shù)據(jù)庫的分析方法一直沒有很好地解決這個(gè)問題。因?yàn)閭鹘y(tǒng)數(shù)據(jù)分析方法涉及的數(shù)量太大,算法也比較復(fù)雜,因此分析所需要的時(shí)間太長,無法在信用卡申請(qǐng)的時(shí)限內(nèi)完成分析。
為此,陳亮他們和費(fèi)馬科技一起,為銀行提供了一種特別有效的解決方案——基于圖數(shù)據(jù)庫和圖計(jì)算平臺(tái)進(jìn)行分析。
通過建立圖數(shù)據(jù)庫,并對(duì)圖數(shù)據(jù)庫進(jìn)行相應(yīng)的計(jì)算分析,可以對(duì)信用卡申請(qǐng)人的電話號(hào)碼、地址等信息進(jìn)行關(guān)聯(lián)和聚類分析。根據(jù)這些相關(guān)性,銀行可以從中會(huì)發(fā)現(xiàn)一些具有團(tuán)伙性質(zhì)的蛛絲馬跡。
相比傳統(tǒng)的數(shù)據(jù)分析方法,他們的系統(tǒng)效率提升了60倍,從原來的需要10個(gè)時(shí)到現(xiàn)在只用10分鐘解決,可用性大大增強(qiáng)。
一個(gè)空間巨大的市場
業(yè)界普遍認(rèn)為,對(duì)于圖數(shù)據(jù)庫和計(jì)算技術(shù)的研究,最早可追溯至20世紀(jì)四五十年代。但圖數(shù)據(jù)庫、圖計(jì)算逐漸進(jìn)入人們視野,則是因2010年谷歌發(fā)布的一篇圖計(jì)算論文引起。隨著數(shù)字經(jīng)濟(jì)的迅速發(fā)展,目前圖數(shù)據(jù)庫已進(jìn)入臨近爆發(fā)的前夜。
在這個(gè)全媒體社交、萬物互聯(lián)的時(shí)代,具有很多的應(yīng)用場景。例如,在金融領(lǐng)域,可用圖數(shù)據(jù)庫通過建立賬戶(客戶)的關(guān)系圖,根據(jù)其社會(huì)關(guān)系、交易情況,分析客戶的還款能力、還款意愿、抗風(fēng)險(xiǎn)能力等,提升金融行業(yè)小貸授信、信貸審核、貸后追蹤等風(fēng)控能力,并根據(jù)資金交易圖譜實(shí)現(xiàn)反洗錢、反欺詐等系統(tǒng)。在社交領(lǐng)域,人與人在線上和線下的聯(lián)系天然形成了一張圖,匯集海量的關(guān)系數(shù)據(jù)后,能夠做社區(qū)發(fā)現(xiàn)、輿論追蹤、用戶推薦等應(yīng)用;在電信領(lǐng)域,人與人的通信是一個(gè)非常強(qiáng)的聯(lián)系,通信的時(shí)間和頻率則代表了這種聯(lián)系的強(qiáng)弱。電信運(yùn)營商在通信圖上進(jìn)行拓展騷擾電話阻斷、經(jīng)營分析等業(yè)務(wù)……
根據(jù)Gartner研究報(bào)告,2019~2022年,圖數(shù)據(jù)庫市場將會(huì)以每年100%的增長率增長;而在過去的2018年,圖數(shù)據(jù)庫市場大概是5億美元,到2022年保守估計(jì)至少80億美元。
圖中可知,從2013年1月起至2020年8月,圖數(shù)據(jù)庫的發(fā)展一直屬于急速上升的模式??傻?,越來越多的人開始關(guān)注圖數(shù)據(jù)庫。數(shù)據(jù)來源:https://db-engines.com/en/ranking_categories
當(dāng)前,越來越多的應(yīng)用場景需要在海量異構(gòu)數(shù)據(jù)中提出復(fù)雜問題,使用現(xiàn)有的數(shù)據(jù)庫(比如關(guān)系型數(shù)據(jù)庫)實(shí)現(xiàn)相關(guān)分析是不切實(shí)際、甚至完全不可能的。而圖數(shù)據(jù)存儲(chǔ)可以跨越數(shù)據(jù)孤島、并有效地建模、探索和查詢數(shù)據(jù),能非常方便地解決這類問題。因此,圖數(shù)據(jù)庫的需求將會(huì)越來越多,但是目前擁有相關(guān)專業(yè)技能人才缺乏的限制了其采用。
巨頭還未全心入局,一場還未真正打響的戰(zhàn)爭
看上去的誘人前景,吸引了很多廠商殺入到圖數(shù)據(jù)庫市場。尤其是近幾年,新興廠商開始增多。
中國軟件網(wǎng)調(diào)查發(fā)現(xiàn),當(dāng)前圖數(shù)據(jù)庫領(lǐng)域主要有兩類提供商:一類是開源軟件,一類是新興公司,還有一些巨頭推出的產(chǎn)品。
從當(dāng)前的競爭態(tài)勢來看,目前處于剛起步的階段,還沒有形成穩(wěn)定的競爭格局。
但從業(yè)界口碑來看,已初步顯露出三大梯隊(duì)的態(tài)勢。
處在第一梯隊(duì)的是Neo4j和費(fèi)馬科技等新興公司。其中Neo4j是開源軟件,它當(dāng)前應(yīng)用最廣泛。費(fèi)馬科技成立時(shí)間相對(duì)較晚,但技術(shù)上更先進(jìn)。
第二梯隊(duì)的主要由JanusGraph等開源項(xiàng)目,以及Virtuoso等公司。這些公司往往都和圖數(shù)據(jù)庫領(lǐng)域知名的開源項(xiàng)目Titan相關(guān)。好多國內(nèi)外有圖數(shù)據(jù)庫產(chǎn)品的公司,最早的代碼都是源自于Titan。
第三梯隊(duì)的主要是一些巨頭推出的產(chǎn)品,以及一些初創(chuàng)公司。例如,百度、騰訊云、阿里云、華為、AWS等都有相關(guān)產(chǎn)品。這些巨頭或基于開源、或收購,或自己研發(fā)推出了一些產(chǎn)品,但基本上都屬于探索期,現(xiàn)在還沒有真正大規(guī)模投入。
國內(nèi)知名的數(shù)據(jù)庫廠商南大通用副總裁杜國旺在授受中國軟件網(wǎng)采訪時(shí)說,他非常看好圖數(shù)據(jù)庫市場的前景。他認(rèn)為,無論是圖數(shù)據(jù)庫廠商,還是依托圖數(shù)據(jù)庫提供知識(shí)圖譜等增值服務(wù)的廠商,都大有發(fā)展前途,完全有可能產(chǎn)生獨(dú)角獸。
不過,也有業(yè)內(nèi)人士對(duì)圖數(shù)據(jù)庫的前景不那么看好。例如,國內(nèi)大數(shù)據(jù)領(lǐng)域的知名專家、柏睿數(shù)據(jù)創(chuàng)始人劉睿民就告訴中國軟件網(wǎng),他不那么看好圖數(shù)據(jù)庫的市場潛力。他認(rèn)為,圖數(shù)據(jù)庫的應(yīng)用場景目前比較窄,有一定的市場空間,關(guān)系型數(shù)據(jù)庫仍然會(huì)占主導(dǎo)地位。
不過,記者發(fā)現(xiàn),不管未來市場容量有多大,圖數(shù)據(jù)庫都引起了國產(chǎn)數(shù)據(jù)庫廠商的深厚興趣,并開始了大量的探索與實(shí)踐。
費(fèi)馬科技在產(chǎn)品技術(shù)上的突破,讓我們看到了國產(chǎn)品牌在數(shù)據(jù)庫領(lǐng)域核心技術(shù)的希望。
費(fèi)馬科技官網(wǎng):https://fma-ai.cn/
作者:中國軟件網(wǎng) 曹開彬
編輯:費(fèi)馬科技
申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!
中國經(jīng)濟(jì)周刊-經(jīng)濟(jì)網(wǎng)訊(記者宋杰)4月27日,第六屆數(shù)字中國建設(shè)峰會(huì)在福州開幕,同期舉行的還有數(shù)字中國建設(shè)成果展覽會(huì),本屆峰會(huì)以“加快數(shù)字中國建設(shè),推進(jìn)中國式現(xiàn)代化”為主題,集中展示數(shù)字中國建設(shè)最新成果和優(yōu)秀實(shí)踐案例,分享發(fā)展經(jīng)驗(yàn)。其中,作為央企中國電科集團(tuán)旗下的數(shù)據(jù)庫國家隊(duì),人大金倉今年展出面積從
近日,由中國團(tuán)隊(duì)研發(fā)的“一種基于共享內(nèi)存和多進(jìn)程的支持高并發(fā)的分布式數(shù)據(jù)庫架構(gòu)”通過美國商標(biāo)專利局審查核準(zhǔn)。這是易鯨捷年內(nèi)第三次獲得美國商標(biāo)專利局授權(quán)專利,再次驗(yàn)證了易鯨捷多年來在分布式數(shù)據(jù)庫領(lǐng)域的自研成果
近日,國內(nèi)知名數(shù)字化市場研究咨詢機(jī)構(gòu)愛分析正式發(fā)布《2022愛分析·信創(chuàng)廠商全景報(bào)告》(以下簡稱“報(bào)告”)。報(bào)告綜合考慮企業(yè)關(guān)注度、行業(yè)落地進(jìn)展等因素,遴選出在信創(chuàng)市場中具備成熟解決方案和落地能力的廠商。
伴隨數(shù)字經(jīng)濟(jì)時(shí)代的到來,數(shù)據(jù)成為企業(yè)的核心資產(chǎn),數(shù)據(jù)安全的受重視程度不斷提升。近些年,大量網(wǎng)絡(luò)攻擊、邏輯故障、人為誤操作、刪庫跑路造成的數(shù)據(jù)安全事故更是給全社會(huì)敲響了警鐘
9月16日,國內(nèi)知名數(shù)字化市場研究咨詢機(jī)構(gòu)——愛分析,正式發(fā)布《2022愛分析·數(shù)據(jù)智能廠商全景報(bào)告》。愛分析選取了13個(gè)特定市場進(jìn)行重點(diǎn)分析,旨在幫助企業(yè)更清晰地了解數(shù)據(jù)智能領(lǐng)域發(fā)展形勢
把脈中國數(shù)據(jù)智能化
2023年,幾乎可以被定義為中國互聯(lián)網(wǎng)公司的“大模型元年”。ChatGPT的全球爆紅,徹底點(diǎn)燃國內(nèi)的大模型賽道,曾經(jīng)的“創(chuàng)業(yè)英雄”、如今的商業(yè)領(lǐng)袖們親自下場,接連發(fā)布生成式人工智能產(chǎn)品與大模型布局。大模型火了,沉寂許久的互聯(lián)網(wǎng)行業(yè)又有了新的“戰(zhàn)事”。同時(shí),大模型的快速發(fā)展也改變了云市場的現(xiàn)狀,企業(yè)對(duì)
近日,數(shù)字化市場研究咨詢機(jī)構(gòu)愛分析發(fā)布了《2022愛分析·數(shù)據(jù)智能廠商全景報(bào)告》,愛分析從技術(shù)研發(fā)能力、服務(wù)客戶數(shù)量、收入規(guī)模等維度對(duì)廠商進(jìn)行了全面專業(yè)的評(píng)估
2022年11月18日,首個(gè)國家級(jí)大數(shù)據(jù)產(chǎn)業(yè)創(chuàng)新賽事——2022第一屆中國大數(shù)據(jù)大賽圓滿落幕。工業(yè)和信息化部信息技術(shù)發(fā)展司數(shù)字經(jīng)濟(jì)推進(jìn)處處長張建倫,中國電子技術(shù)標(biāo)準(zhǔn)化研究院副院長孫文龍出席頒獎(jiǎng)典禮并致辭
2022年11月17日,在廈門市工業(yè)和信息化局的指導(dǎo)下,以“數(shù)據(jù)確權(quán)”為主題的2022數(shù)據(jù)資產(chǎn)(廈門)論壇在廈門成功舉辦。本次論壇以“數(shù)據(jù)確權(quán)”為主題,由廈門市互聯(lián)網(wǎng)域名應(yīng)用服務(wù)產(chǎn)業(yè)協(xié)會(huì)和構(gòu)信網(wǎng)(公信.中國)聯(lián)合主辦
近日,國內(nèi)知名數(shù)字化市場研究咨詢機(jī)構(gòu)愛分析正式發(fā)布《2022愛分析·信創(chuàng)廠商全景報(bào)告》(以下簡稱“報(bào)告”)。報(bào)告綜合考慮企業(yè)關(guān)注度、行業(yè)落地進(jìn)展等因素,遴選出在信創(chuàng)市場中具備成熟解決方案和落地能力的廠商。
10月31日下午,由數(shù)博會(huì)執(zhí)委會(huì)主辦、數(shù)據(jù)觀(北京)傳媒科技有限公司承辦、貴陽大數(shù)據(jù)交易所協(xié)辦的第四期數(shù)博思享會(huì)“實(shí)踐先行觀公共數(shù)據(jù)價(jià)值與應(yīng)用”活動(dòng)成功舉辦。
近日,由中國國際數(shù)字經(jīng)濟(jì)博覽會(huì)組委會(huì)主辦,中國電子技術(shù)標(biāo)準(zhǔn)化研究院、河北省工業(yè)和信息化廳承辦的“第一屆中國大數(shù)據(jù)大賽”(簡稱大數(shù)據(jù)大賽)正式啟動(dòng)。
廣州光點(diǎn)信息科技有限公司自主研發(fā)的數(shù)據(jù)中臺(tái)產(chǎn)品GI大數(shù)據(jù)中臺(tái)V2.0產(chǎn)品是國內(nèi)率先推出符合新創(chuàng)標(biāo)準(zhǔn)的中臺(tái)產(chǎn)品,基于“大數(shù)據(jù)+AI”等技術(shù)全新打造,集數(shù)據(jù)采集、融合、治理、服務(wù)、管理為一體的旗艦平臺(tái)。
廣州光點(diǎn)信息科技有限公司自主研發(fā)的數(shù)據(jù)中臺(tái)產(chǎn)品GI大數(shù)據(jù)中臺(tái)V2.0產(chǎn)品是國內(nèi)率先推出符合新創(chuàng)標(biāo)準(zhǔn)的中臺(tái)產(chǎn)品,基于“大數(shù)據(jù)+AI”等技術(shù)全新打造,集數(shù)據(jù)采集、融合、治理、服務(wù)、管理為一體的旗艦平臺(tái)