XSKY打造Hadoop HDFS高性能客戶端，構(gòu)筑數(shù)據(jù)湖理想底座

2019-08-22 16:47 來(lái)源：互聯(lián)網(wǎng) 我來(lái)投稿撤稿糾錯(cuò)

　域名預(yù)訂/競(jìng)價(jià)，好“米”不錯(cuò)過(guò)

隨著全球數(shù)據(jù)呈爆發(fā)式增長(zhǎng)，基于海量數(shù)據(jù)的挖掘和分析，為用戶帶來(lái)了巨大的商業(yè)價(jià)值。源于開(kāi)源平臺(tái)的Apache Hadoop，允許使用簡(jiǎn)單的編程模型跨計(jì)算機(jī)集群分布式處理大型數(shù)據(jù)集，成為大數(shù)據(jù)時(shí)代最受歡迎的技術(shù)之一。

01 性能瓶頸

HDFS分布式文件系統(tǒng)作為Hadoop的三大組件之一，是分布式計(jì)算中數(shù)據(jù)存儲(chǔ)管理的基礎(chǔ)。但是在HDFS傳統(tǒng)架構(gòu)下，Hadoop擴(kuò)展性受到了一定限制，容易出現(xiàn)性能瓶頸等問(wèn)題。

圖片來(lái)源：Hadoop官方文檔

例如，由于HDFS中每個(gè)文件、目錄和數(shù)據(jù)塊的元數(shù)據(jù)信息（大約150字節(jié)）必須存儲(chǔ)在NameNode的內(nèi)存中，這也就意味著對(duì)于一個(gè)擁有大量文件的超大集群來(lái)說(shuō)，內(nèi)存將成為限制系統(tǒng)橫向擴(kuò)展的瓶頸。

同時(shí)，作為一個(gè)可擴(kuò)展的文件系統(tǒng)，單個(gè)集群中支持?jǐn)?shù)千個(gè)節(jié)點(diǎn)。在單個(gè)命名空間中DataNode可以擴(kuò)展的很好，但是NameNode并不能在單個(gè)命名空間進(jìn)行橫向擴(kuò)展。通常情況下，HDFS集群的性能瓶頸出現(xiàn)在單個(gè)NameNode上。

雖然，在Hadoop 2.x發(fā)行版中引入了聯(lián)邦HDFS功能，允許系統(tǒng)通過(guò)添加多個(gè)NameNode來(lái)實(shí)現(xiàn)擴(kuò)展。但是，系統(tǒng)管理員需要維護(hù)多個(gè)NameNodes和負(fù)載均衡服務(wù)，這又無(wú)形中增加了管理成本。

此外，大數(shù)據(jù)平臺(tái)建設(shè)和應(yīng)用中還亟待解決以下問(wèn)題：

? 在傳統(tǒng)的Apache Hadoop集群系統(tǒng)中，計(jì)算和存儲(chǔ)資源緊密耦合。當(dāng)存儲(chǔ)空間或計(jì)算資源不足時(shí)，只能同時(shí)對(duì)兩者進(jìn)行擴(kuò)容，不僅擴(kuò)容不方便，且經(jīng)濟(jì)效率較低；

? Hadoop的數(shù)據(jù)備份方案昂貴，且難以實(shí)現(xiàn)；

? 不同部門(mén)、平臺(tái)各自建大數(shù)據(jù)系統(tǒng)，數(shù)據(jù)不共享，導(dǎo)致大數(shù)據(jù)計(jì)算平臺(tái)碎片化，逐漸形成大數(shù)據(jù)煙囪。

02 XSKY HDFS Client

為了解決上述問(wèn)題，業(yè)界一般采用對(duì)象存儲(chǔ)來(lái)作為Hadoop的后端存儲(chǔ)，解決上面HDFS的各種問(wèn)題，構(gòu)建數(shù)據(jù)湖解決方案。

Hadoop社區(qū)也開(kāi)發(fā)了S3A連接器，用來(lái)對(duì)接標(biāo)準(zhǔn)的S3對(duì)象存儲(chǔ)。但是，標(biāo)準(zhǔn)的S3A連接器的性能一般比HDFS要差很多，而且不支持追加寫(xiě)，因此只能支持部分對(duì)性能不高的業(yè)務(wù)，或者作為Hadoop分層存儲(chǔ)使用。

為此，XSKY開(kāi)發(fā)了基于對(duì)象存儲(chǔ)XEOS的專用Hadoop HDFS高性能客戶端XSKY HDFS Client。

XSKY HDFS Client和S3A架構(gòu)對(duì)比

通過(guò)XSKY HDFS Client，Hadoop應(yīng)用可以訪問(wèn)存儲(chǔ)在XEOS中的所有數(shù)據(jù)，這就避免了傳統(tǒng)的Hadoop應(yīng)用在進(jìn)行數(shù)據(jù)分析前，還要將數(shù)據(jù)由業(yè)務(wù)存儲(chǔ)移動(dòng)到分析存儲(chǔ)HDFS中。

XSKY HDFS Client為Hadoop應(yīng)用提供了標(biāo)準(zhǔn)的 Hadoop 文件系統(tǒng)操作接口。在每個(gè)計(jì)算節(jié)點(diǎn)上，Hadoop應(yīng)用都將使用XSKY HDFS Client (JAR) 執(zhí)行 Hadoop文件系統(tǒng)的操作，XSKY HDFS Client屏蔽了Hadoop應(yīng)用與XEOS集*互的復(fù)雜性。

相比于原生Hadoop S3A對(duì)接對(duì)象存儲(chǔ)的方式，XSKY HDFS Client可以直接訪問(wèn)存儲(chǔ)集群的OSD，IO路徑更短；同時(shí)，XSKY HDFS Client具有追加寫(xiě)的功能，可以匹配Hadoop文件系統(tǒng)對(duì)追加寫(xiě)的需求。

XSKY內(nèi)部對(duì)在業(yè)界最廣泛應(yīng)用的Hadoop商業(yè)發(fā)行版本之一Cloudera CDH的TestDFSIO測(cè)試中顯示，部署了XSKY HDFS Client的 XEOS集群寫(xiě)性能超過(guò)采用Remote HDFS系統(tǒng)的94%，讀性能超過(guò)77%（兩種測(cè)試硬件配置一樣，節(jié)點(diǎn)數(shù)都是8節(jié)點(diǎn)，其中存儲(chǔ)和Datanode都是3節(jié)點(diǎn)）。

WordCount測(cè)試中，性能瓶頸主要在CDH計(jì)算集群的CPU使用率，兩組測(cè)試環(huán)境計(jì)算集群的CPU均達(dá)到了100%。HDFS對(duì)1TB數(shù)據(jù)進(jìn)行WordCount計(jì)算的時(shí)間消耗為46分22秒，而XEOS的時(shí)間消耗為47分20秒，相差不大。

HBase寫(xiě)測(cè)試中，HDFS對(duì)30,000,000條數(shù)據(jù)進(jìn)行寫(xiě)入時(shí)間消耗為2分23秒，而XEOS的時(shí)間消耗為2分55秒，與HDFS比相差30秒左右。但是從HBase統(tǒng)計(jì)的IOPS來(lái)看，HDFS和XEOS相差不大。

HBase讀測(cè)試，HDFS對(duì)30,000,000條數(shù)據(jù)進(jìn)行讀取時(shí)間消耗為47秒，而XEOS的時(shí)間消耗為46秒，幾乎沒(méi)有差別。但是從HBase統(tǒng)計(jì)的IOPS來(lái)看， XEOS明顯高于HDFS。

03客戶收益

? 計(jì)算存儲(chǔ)分離部署，按需擴(kuò)容，大幅降低TCO；

? 更加優(yōu)化的性能，以及企業(yè)級(jí)存儲(chǔ)特性；

? 適用于大數(shù)據(jù)平臺(tái)的容災(zāi)備份；

? 同時(shí)支持生產(chǎn)業(yè)務(wù)、Hadoop、MPP、AI等計(jì)算業(yè)務(wù)，解決數(shù)據(jù)孤島問(wèn)題；

? 一套存儲(chǔ)系統(tǒng)，承載多個(gè)異構(gòu)平臺(tái)的數(shù)據(jù)整合，加速數(shù)據(jù)流動(dòng)；

? NFS、HDFS、S3三種協(xié)議互通，三種協(xié)議來(lái)源的數(shù)據(jù)都可以統(tǒng)一進(jìn)行in-place分析，分析結(jié)果可以通過(guò)S3實(shí)時(shí)發(fā)布。

XSKY目前已經(jīng)實(shí)現(xiàn)塊、文件、對(duì)象、HDFS支持，為企業(yè)用戶構(gòu)建了真正統(tǒng)一的數(shù)據(jù)存儲(chǔ)平臺(tái)，可實(shí)現(xiàn)用戶從核心生產(chǎn)到海量數(shù)據(jù)分析的最大化數(shù)據(jù)整合，助力構(gòu)筑企業(yè)數(shù)據(jù)湖理想底座！

申請(qǐng)創(chuàng)業(yè)報(bào)道，分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處，共同探討創(chuàng)業(yè)新機(jī)遇！

相關(guān)標(biāo)簽: 大數(shù)據(jù)技術(shù)

相關(guān)文章

大數(shù)據(jù)如何服務(wù)“三農(nóng)”？北京佳格天地受邀出席2022世界數(shù)字農(nóng)業(yè)大會(huì)作專題分享

日前,2022世界數(shù)字農(nóng)業(yè)大會(huì)舉行。大會(huì)以“種鑄強(qiáng)芯,數(shù)領(lǐng)未來(lái)”為主題,開(kāi)設(shè)多場(chǎng)數(shù)字農(nóng)業(yè)云端專題論壇,北京佳格天地科技有限公司受邀出席”農(nóng)業(yè)農(nóng)村大數(shù)據(jù)應(yīng)用論壇“,同與會(huì)嘉賓分享了農(nóng)業(yè)大數(shù)據(jù)的創(chuàng)新應(yīng)用。

標(biāo)簽：

大數(shù)據(jù)

大數(shù)據(jù)應(yīng)用

大數(shù)據(jù)技術(shù)
秦淮數(shù)據(jù)馬來(lái)西亞超大規(guī)模數(shù)據(jù)中心盛大開(kāi)園

近日，秦淮數(shù)據(jù)集團(tuán)位于馬來(lái)西亞柔佛州的秦淮數(shù)據(jù)馬來(lái)柔佛超大規(guī)模數(shù)據(jù)中心(以下簡(jiǎn)稱“MY06”)一期盛大開(kāi)園。從規(guī)劃、設(shè)計(jì)到建造，秦淮數(shù)據(jù)集團(tuán)中國(guó)、新加坡、馬來(lái)西亞三地團(tuán)隊(duì)緊密合作，共同完成馬來(lái)西亞最大的國(guó)際超大規(guī)模數(shù)據(jù)中心交付

標(biāo)簽：

大數(shù)據(jù)技術(shù)
光點(diǎn)數(shù)據(jù)中臺(tái)產(chǎn)品GI大數(shù)據(jù)中臺(tái)V2.0與東方通產(chǎn)品兼容互認(rèn)

廣州光點(diǎn)信息科技有限公司自主研發(fā)的數(shù)據(jù)中臺(tái)產(chǎn)品GI大數(shù)據(jù)中臺(tái)V2.0產(chǎn)品是國(guó)內(nèi)率先推出符合新創(chuàng)標(biāo)準(zhǔn)的中臺(tái)產(chǎn)品,基于“大數(shù)據(jù)+AI”等技術(shù)全新打造,集數(shù)據(jù)采集、融合、治理、服務(wù)、管理為一體的旗艦平臺(tái)。

標(biāo)簽：

大數(shù)據(jù)

大數(shù)據(jù)技術(shù)
蒼穹數(shù)碼成功入圍2022年第一批大數(shù)據(jù)企業(yè)公告榜單

為深入貫徹黨中央、國(guó)務(wù)院關(guān)于推進(jìn)數(shù)字經(jīng)濟(jì)發(fā)展的戰(zhàn)略決策部署，落實(shí)《北京市關(guān)于加快建設(shè)全球數(shù)字經(jīng)濟(jì)標(biāo)桿城市的實(shí)施方案》(京辦發(fā)(2021)16號(hào))等政策精神，促進(jìn)大數(shù)據(jù)產(chǎn)業(yè)規(guī)范發(fā)展

標(biāo)簽：

大數(shù)據(jù)技術(shù)
中科視語(yǔ)“句容新型數(shù)據(jù)智算中心”重點(diǎn)項(xiàng)目簽約，聚力推進(jìn)句容“產(chǎn)業(yè)強(qiáng)市”建設(shè)

8月29日下午，2022年句容經(jīng)濟(jì)開(kāi)發(fā)區(qū)第二批項(xiàng)目集中簽約暨重大產(chǎn)業(yè)項(xiàng)目集中開(kāi)竣工活動(dòng)成功舉行。中科視語(yǔ)與句容市簽署戰(zhàn)略協(xié)議，進(jìn)一步加大數(shù)智化投入，與江蘇有線等多家合作單位共同打造“句容新型數(shù)據(jù)智算中心”

標(biāo)簽：

大數(shù)據(jù)產(chǎn)業(yè)

大數(shù)據(jù)技術(shù)

實(shí)測(cè)5家BI產(chǎn)品，誰(shuí)是中國(guó)的Power BI？

把脈中國(guó)數(shù)據(jù)智能化
“多云多模型”時(shí)代到來(lái)，火山引擎的數(shù)字化升級(jí)“刀法”

2023年，幾乎可以被定義為中國(guó)互聯(lián)網(wǎng)公司的“大模型元年”。ChatGPT的全球爆紅，徹底點(diǎn)燃國(guó)內(nèi)的大模型賽道，曾經(jīng)的“創(chuàng)業(yè)英雄”、如今的商業(yè)領(lǐng)袖們親自下場(chǎng)，接連發(fā)布生成式人工智能產(chǎn)品與大模型布局。大模型火了，沉寂許久的互聯(lián)網(wǎng)行業(yè)又有了新的“戰(zhàn)事”。同時(shí)，大模型的快速發(fā)展也改變了云市場(chǎng)的現(xiàn)狀，企業(yè)對(duì)

標(biāo)簽：

數(shù)字化技術(shù)
數(shù)新網(wǎng)絡(luò)DataCyber云數(shù)據(jù)平臺(tái)入選《愛(ài)分析 · 數(shù)據(jù)智能廠商全景報(bào)告》

近日，數(shù)字化市場(chǎng)研究咨詢機(jī)構(gòu)愛(ài)分析發(fā)布了《2022愛(ài)分析·數(shù)據(jù)智能廠商全景報(bào)告》，愛(ài)分析從技術(shù)研發(fā)能力、服務(wù)客戶數(shù)量、收入規(guī)模等維度對(duì)廠商進(jìn)行了全面專業(yè)的評(píng)估

標(biāo)簽：

大數(shù)據(jù)
百分點(diǎn)科技在首屆中國(guó)大數(shù)據(jù)大賽中成功奪冠

2022年11月18日,首個(gè)國(guó)家級(jí)大數(shù)據(jù)產(chǎn)業(yè)創(chuàng)新賽事——2022第一屆中國(guó)大數(shù)據(jù)大賽圓滿落幕。工業(yè)和信息化部信息技術(shù)發(fā)展司數(shù)字經(jīng)濟(jì)推進(jìn)處處長(zhǎng)張建倫,中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院副院長(zhǎng)孫文龍出席頒獎(jiǎng)典禮并致辭

標(biāo)簽：

大數(shù)據(jù)

大數(shù)據(jù)產(chǎn)業(yè)
大咖云集 | 2022數(shù)據(jù)資產(chǎn)（廈門(mén)）論壇成功舉辦

2022年11月17日，在廈門(mén)市工業(yè)和信息化局的指導(dǎo)下，以“數(shù)據(jù)確權(quán)”為主題的2022數(shù)據(jù)資產(chǎn)(廈門(mén))論壇在廈門(mén)成功舉辦。本次論壇以“數(shù)據(jù)確權(quán)”為主題，由廈門(mén)市互聯(lián)網(wǎng)域名應(yīng)用服務(wù)產(chǎn)業(yè)協(xié)會(huì)和構(gòu)信網(wǎng)(公信.中國(guó))聯(lián)合主辦

標(biāo)簽：

數(shù)據(jù)中心

大數(shù)據(jù)
睿帆科技成功入選《2022愛(ài)分析·信創(chuàng)廠商全景報(bào)告》

近日，國(guó)內(nèi)知名數(shù)字化市場(chǎng)研究咨詢機(jī)構(gòu)愛(ài)分析正式發(fā)布《2022愛(ài)分析·信創(chuàng)廠商全景報(bào)告》(以下簡(jiǎn)稱“報(bào)告”)。報(bào)告綜合考慮企業(yè)關(guān)注度、行業(yè)落地進(jìn)展等因素，遴選出在信創(chuàng)市場(chǎng)中具備成熟解決方案和落地能力的廠商。

標(biāo)簽：

數(shù)據(jù)庫(kù)

大數(shù)據(jù)

百望云楊正道:數(shù)字經(jīng)濟(jì)正在催生由數(shù)據(jù)驅(qū)動(dòng)的“智能監(jiān)管”

10月31日下午,由數(shù)博會(huì)執(zhí)委會(huì)主辦、數(shù)據(jù)觀(北京)傳媒科技有限公司承辦、貴陽(yáng)大數(shù)據(jù)交易所協(xié)辦的第四期數(shù)博思享會(huì)“實(shí)踐先行觀公共數(shù)據(jù)價(jià)值與應(yīng)用”活動(dòng)成功舉辦。

標(biāo)簽：

數(shù)字技術(shù)

大數(shù)據(jù)
第一屆中國(guó)大數(shù)據(jù)大賽正式啟動(dòng)，3大賽道全面開(kāi)放

近日，由中國(guó)國(guó)際數(shù)字經(jīng)濟(jì)博覽會(huì)組委會(huì)主辦，中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院、河北省工業(yè)和信息化廳承辦的“第一屆中國(guó)大數(shù)據(jù)大賽”(簡(jiǎn)稱大數(shù)據(jù)大賽)正式啟動(dòng)。

標(biāo)簽：

大數(shù)據(jù)

大數(shù)據(jù)產(chǎn)業(yè)
光點(diǎn)數(shù)據(jù)中臺(tái)產(chǎn)品GI大數(shù)據(jù)中臺(tái)與人大金倉(cāng)完成兼容認(rèn)證

廣州光點(diǎn)信息科技有限公司自主研發(fā)的數(shù)據(jù)中臺(tái)產(chǎn)品GI大數(shù)據(jù)中臺(tái)V2.0產(chǎn)品是國(guó)內(nèi)率先推出符合新創(chuàng)標(biāo)準(zhǔn)的中臺(tái)產(chǎn)品,基于“大數(shù)據(jù)+AI”等技術(shù)全新打造,集數(shù)據(jù)采集、融合、治理、服務(wù)、管理為一體的旗艦平臺(tái)。

標(biāo)簽：

數(shù)據(jù)中臺(tái)

大數(shù)據(jù)
光點(diǎn)數(shù)據(jù)中臺(tái)產(chǎn)品GI大數(shù)據(jù)中臺(tái)與統(tǒng)信軟件完成兼容認(rèn)證

廣州光點(diǎn)信息科技有限公司自主研發(fā)的數(shù)據(jù)中臺(tái)產(chǎn)品GI大數(shù)據(jù)中臺(tái)V2.0產(chǎn)品是國(guó)內(nèi)率先推出符合新創(chuàng)標(biāo)準(zhǔn)的中臺(tái)產(chǎn)品,基于“大數(shù)據(jù)+AI”等技術(shù)全新打造,集數(shù)據(jù)采集、融合、治理、服務(wù)、管理為一體的旗艦平臺(tái)

標(biāo)簽：

數(shù)據(jù)中臺(tái)

大數(shù)據(jù)

加載更多

XSKY打造Hadoop HDFS高性能客戶端，構(gòu)筑數(shù)據(jù)湖理想底座

相關(guān)文章

大數(shù)據(jù)如何服務(wù)“三農(nóng)”？北京佳格天地受邀出席2022世界數(shù)字農(nóng)業(yè)大會(huì)作專題分享

秦淮數(shù)據(jù)馬來(lái)西亞超大規(guī)模數(shù)據(jù)中心盛大開(kāi)園

光點(diǎn)數(shù)據(jù)中臺(tái)產(chǎn)品GI大數(shù)據(jù)中臺(tái)V2.0與東方通產(chǎn)品兼容互認(rèn)

蒼穹數(shù)碼成功入圍2022年第一批大數(shù)據(jù)企業(yè)公告榜單

中科視語(yǔ)“句容新型數(shù)據(jù)智算中心”重點(diǎn)項(xiàng)目簽約，聚力推進(jìn)句容“產(chǎn)業(yè)強(qiáng)市”建設(shè)

實(shí)測(cè)5家BI產(chǎn)品，誰(shuí)是中國(guó)的Power BI？

“多云多模型”時(shí)代到來(lái)，火山引擎的數(shù)字化升級(jí)“刀法”

數(shù)新網(wǎng)絡(luò)DataCyber云數(shù)據(jù)平臺(tái)入選《愛(ài)分析 · 數(shù)據(jù)智能廠商全景報(bào)告》

百分點(diǎn)科技在首屆中國(guó)大數(shù)據(jù)大賽中成功奪冠

大咖云集 | 2022數(shù)據(jù)資產(chǎn)（廈門(mén)）論壇成功舉辦

睿帆科技成功入選《2022愛(ài)分析·信創(chuàng)廠商全景報(bào)告》

百望云楊正道:數(shù)字經(jīng)濟(jì)正在催生由數(shù)據(jù)驅(qū)動(dòng)的“智能監(jiān)管”

第一屆中國(guó)大數(shù)據(jù)大賽正式啟動(dòng)，3大賽道全面開(kāi)放

光點(diǎn)數(shù)據(jù)中臺(tái)產(chǎn)品GI大數(shù)據(jù)中臺(tái)與人大金倉(cāng)完成兼容認(rèn)證

光點(diǎn)數(shù)據(jù)中臺(tái)產(chǎn)品GI大數(shù)據(jù)中臺(tái)與統(tǒng)信軟件完成兼容認(rèn)證

熱門(mén)排行

編輯推薦

XSKY打造Hadoop HDFS高性能客戶端，構(gòu)筑數(shù)據(jù)湖理想底座

相關(guān)文章

熱門(mén)排行

編輯推薦

XSKY打造Hadoop HDFS高性能客戶端，構(gòu)筑數(shù)據(jù)湖理想底座