當(dāng)前位置:首頁(yè) >  科技 >  IT業(yè)界 >  正文

全調(diào)度以太網(wǎng)(GSE),中國(guó)智算網(wǎng)絡(luò)新標(biāo)準(zhǔn)

 2024-08-14 09:14  來(lái)源: 互聯(lián)網(wǎng)   我來(lái)投稿 撤稿糾錯(cuò)

  域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過(guò)

伴隨著智算技術(shù)的發(fā)展,越來(lái)越多的研究表明在 AI 訓(xùn)練達(dá)到一定規(guī)模下能力才會(huì)涌現(xiàn),在AI大模型的擴(kuò)展定律和涌現(xiàn)能力的驅(qū)動(dòng)下,AI大模型的參數(shù)規(guī)模越來(lái)越大。國(guó)內(nèi)外業(yè)界已出現(xiàn)多個(gè)萬(wàn)億參數(shù)模型,十萬(wàn)億參數(shù)模型在不遠(yuǎn)的將來(lái)也有望問(wèn)世。公開(kāi)資料表明,GPT-4 的參數(shù)體量比 GPT-3 增長(zhǎng)了 10 倍,達(dá)到 1.8 萬(wàn)億參數(shù)。國(guó)內(nèi)的盤(pán)古、悟道大模型,其參數(shù)規(guī)模同樣超過(guò)了萬(wàn)億。

注:數(shù)據(jù)截至23年3月,資料來(lái)源:北京智源人工智能研究院,中金公司研究院

美國(guó)當(dāng)?shù)貢r(shí)間7月22日,特斯拉CEO埃隆·馬斯克在旗下社交平臺(tái)X上表示,xAI團(tuán)隊(duì)、X團(tuán)隊(duì)、英偉達(dá)及其他支持公司已經(jīng)于當(dāng)?shù)貢r(shí)間凌晨4時(shí)20分開(kāi)始在“孟菲斯超級(jí)集群(Memphis Supercluster)”上進(jìn)行訓(xùn)練。“孟菲斯超級(jí)集群”由10萬(wàn)個(gè)液冷H100 GPU組成,在單個(gè)RDMA結(jié)構(gòu)上運(yùn)行,是“世界上最強(qiáng)大的人工智能訓(xùn)練集群”,該集群將被用于訓(xùn)練xAI旗下第三代大語(yǔ)言模型Grok-3。大規(guī)模 AI 計(jì)算從萬(wàn)卡進(jìn)入到十萬(wàn)卡時(shí)代。

大規(guī)模智算集群需要高性能的網(wǎng)絡(luò)連接,以保證各智算節(jié)點(diǎn)間的通信效率、數(shù)據(jù)吞吐和整個(gè)智算集群的算力性能。這對(duì)智算網(wǎng)絡(luò)提出了新的挑戰(zhàn)。

在基礎(chǔ)訓(xùn)練模型中,一方面多任務(wù)混合部署,傳統(tǒng)以太網(wǎng)源端發(fā)流直接采用網(wǎng)絡(luò)“Push”流量模式,不考慮網(wǎng)絡(luò)及接收端的接受能力,導(dǎo)致網(wǎng)絡(luò)擁塞,使得 GPU 處于等待狀態(tài),造成梯度和參數(shù)同步過(guò)程中算力資源浪費(fèi)較大,傳統(tǒng)的 RoCE 網(wǎng)絡(luò)有效吞吐僅為 50%;另一方面,智算集群網(wǎng)絡(luò)流量呈現(xiàn)出數(shù)據(jù)流數(shù)目少、單流流量大的特點(diǎn),在傳統(tǒng)網(wǎng)絡(luò)均衡算法下容易引發(fā)HASH 沖突,造成鏈路丟包,導(dǎo)致訓(xùn)練異常中斷,極大影響訓(xùn)練效率。時(shí)代呼喚 零丟包 高吞吐 、 低時(shí)延 為核心特征的無(wú)損智算網(wǎng)絡(luò)設(shè)備,來(lái)解決超大規(guī)模 AI 計(jì)算通信效率低的問(wèn)題。

當(dāng)前全球 已商用的 智算網(wǎng)絡(luò)技術(shù),主要有 2 大流派:

流派 1 : IB(InfiniBand)網(wǎng)絡(luò),是目前市場(chǎng)占有率最高的智算網(wǎng)絡(luò)解決方案,IB 技術(shù)較為封閉,市場(chǎng)基本被英偉達(dá)壟斷,不符合全球開(kāi)放生態(tài)的產(chǎn)業(yè)共識(shí)。

流派 2 : RoCE(RDMA over Converged Ethernet)網(wǎng)絡(luò),RoCE廣泛應(yīng)用于需要高帶寬和低延遲的網(wǎng)絡(luò),在傳統(tǒng)的通算領(lǐng)域有很高的占有率,但是RoCE在智算網(wǎng)絡(luò)中存在流量HASH極化的問(wèn)題,需要輔助以各種均衡調(diào)參進(jìn)行智算網(wǎng)絡(luò)的適配。

為了 更好的 提升 智算網(wǎng)絡(luò)性能,更好的服務(wù)于 大規(guī)模 AI 計(jì)算, 出現(xiàn)了更多的新型技術(shù)流派:

新技術(shù)流派 1 :UEC(Ultra Ethernet Consortium)網(wǎng)絡(luò),2023 年 7 月Linux 基金會(huì)與全球頭部科技企業(yè)聯(lián)合成立 UEC 以太網(wǎng)創(chuàng)新聯(lián)盟,其創(chuàng)始成員包括AMD、Arista、博通、思科、HPE、Intel、Meta、微軟、Oracle和Eviden,致力于從物理層、鏈路層、傳輸層、軟件層改進(jìn)以太網(wǎng)技術(shù)的革新,來(lái)滿(mǎn)足 AI 計(jì)算網(wǎng)絡(luò)的需求。

新技術(shù)流派 2 :GSE(Global Scheduling Ethernet)網(wǎng)絡(luò),中國(guó)智算中心的建設(shè)熱潮始于 2020 年,目前已有 40 多個(gè)城市在建設(shè)或在建智算中心。智算中心建設(shè)步伐加快,但國(guó)內(nèi)的網(wǎng)絡(luò)技術(shù)發(fā)展卻滯后于 AI 大模型的演進(jìn)。 AI 網(wǎng)絡(luò)技術(shù)上的競(jìng)爭(zhēng)已經(jīng)成為中美技術(shù)博弈的新戰(zhàn)場(chǎng)。在這樣嚴(yán)峻的形勢(shì)下,2023 年 5 月,中國(guó)移動(dòng)聯(lián)合產(chǎn)業(yè)界發(fā)布了全調(diào)度以太網(wǎng)(GSE)白皮書(shū),同年8 月全調(diào)度以太網(wǎng)推進(jìn)計(jì)劃正式開(kāi)啟,標(biāo)志著具有中國(guó)自主技術(shù)的 GSE 流派正式誕生。

GSE 是一個(gè)開(kāi)放的生態(tài)組織,2023 年 9 月,中國(guó)移動(dòng)發(fā)布推GSE 交換機(jī)原型系統(tǒng)樣機(jī)。2024 年 1 月在移動(dòng)實(shí)驗(yàn)室完成了GSE 交換機(jī)多廠商設(shè)備的互聯(lián)互通測(cè)試。

 

GSE 網(wǎng)絡(luò) ,專(zhuān)為大規(guī)模 AI 訓(xùn)練集群 打造:

按需調(diào)度,性能無(wú)損

GSE 網(wǎng)絡(luò)基于 PKTC 容器技術(shù),實(shí)現(xiàn)了高精度的網(wǎng)絡(luò)負(fù)載均衡,從根本上改善了傳統(tǒng) AI 算力網(wǎng)絡(luò)鏈路的帶寬利用率;采用基于 DQSQ 的信令申請(qǐng)調(diào)度技術(shù),數(shù)據(jù)流以“Pull”的方式進(jìn)行轉(zhuǎn)發(fā),突破了傳統(tǒng)以太網(wǎng)的性能瓶頸,網(wǎng)絡(luò)性能提升至 95%以上。

在多業(yè)務(wù)部署場(chǎng)景下,相較于傳統(tǒng) RoCE 網(wǎng)絡(luò)性能大幅下降,GSE 交換機(jī)能保持與單業(yè)務(wù)場(chǎng)景持平的網(wǎng)絡(luò)轉(zhuǎn)發(fā)性能,極大提升網(wǎng)絡(luò)效率。

場(chǎng)景靈活,快速部署

GSE 純網(wǎng)側(cè)方案即可滿(mǎn)足智算無(wú)損需求,可搭配國(guó)產(chǎn) GPU 集成網(wǎng)卡,降低端側(cè)網(wǎng)卡要求。GSE技術(shù)原生解決了適配不同大模型訓(xùn)練的網(wǎng)絡(luò)調(diào)參問(wèn)題,避免了傳統(tǒng)RoCE達(dá)數(shù)天甚至數(shù)周的網(wǎng)絡(luò)參數(shù)調(diào)優(yōu),在算力昂貴、AI大模型競(jìng)爭(zhēng)激烈的市場(chǎng)中,為客戶(hù)帶來(lái)靈活的算力網(wǎng)絡(luò)建設(shè)方案,縮短了訓(xùn)練調(diào)優(yōu)周期,幫助客戶(hù)快速搶占市場(chǎng)先機(jī)。

全局解耦, 開(kāi)放生態(tài)

GSE 技術(shù)體系支持標(biāo)準(zhǔn)以太網(wǎng)標(biāo)準(zhǔn),新增標(biāo)準(zhǔn)協(xié)議頭,完成基于以太報(bào)文的轉(zhuǎn)發(fā),實(shí)現(xiàn)端到端的多廠家設(shè)備互聯(lián)互通,構(gòu)建了多廠家充分參與的開(kāi)放生態(tài),全面激活國(guó)內(nèi) AI 產(chǎn)業(yè)鏈,促進(jìn)智算產(chǎn)業(yè)創(chuàng)新發(fā)展。

GSE標(biāo)準(zhǔn)協(xié)議頭

【總結(jié)】

銳捷網(wǎng)絡(luò)致力于與 GSE 生態(tài)一起打造中國(guó)的AIGC智算網(wǎng)絡(luò)新標(biāo)準(zhǔn)。GSE 網(wǎng)絡(luò)設(shè)備基于標(biāo)準(zhǔn)以太網(wǎng)在轉(zhuǎn)發(fā)架構(gòu)方面進(jìn)行技術(shù)創(chuàng)新,突破傳統(tǒng)以太網(wǎng)的性能瓶頸,拓展智算網(wǎng)絡(luò)的應(yīng)用場(chǎng)景,充分滿(mǎn)足國(guó)產(chǎn)化智算集群網(wǎng)絡(luò)的需求,為客戶(hù)帶來(lái)了三大核心價(jià)值:提高智算效率, 增強(qiáng)運(yùn)維體驗(yàn) , 開(kāi)放 生態(tài) 解耦 。

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)文章

熱門(mén)排行

信息推薦