AI引發(fā)的算力需求到底有多大?各種預(yù)測數(shù)據(jù)雖然并不統(tǒng)一,但可以肯定的是AI和大模型又將帶來新一輪的生產(chǎn)力的變革,在這個技術(shù)催生的市場變化中,企業(yè)的應(yīng)用變得更加復(fù)雜,業(yè)態(tài)會更加豐富,底層架構(gòu)單一的CPU或者GPU已經(jīng)不能滿足需求??偠灾?,企業(yè)面臨的技術(shù)和平臺挑戰(zhàn)將是空前的。
青云科技(qingcloud.com)總裁林源分析說:“從算力建設(shè)的角度去看,現(xiàn)在是算力集中建設(shè)的階段。大量的算力中心如雨后春筍般出來,成本和技術(shù)是最大的挑戰(zhàn)。如果說建設(shè)期就是蓋機房、購買設(shè)備,那么中長期的運營則是更專業(yè)、更復(fù)雜的問題。這些問題都需要解決,青云也給出了自己的答案,這就是青云最新推出的AI算力調(diào)度平臺。”
多元算力調(diào)度,管理AI基礎(chǔ)設(shè)施
“在近兩年運營過程中,我們總結(jié)出一些這個行業(yè)當(dāng)前面臨的挑戰(zhàn),同時它也是青云所需要解決的問題。”青云科技產(chǎn)品經(jīng)理苗慧在分析行業(yè)挑戰(zhàn)的同時,也給出了青云科技的解決方案。
首先,解決行業(yè)多元資源統(tǒng)一調(diào)度管理的問題。
在AIGC領(lǐng)域,行業(yè)面臨的普遍問題是大文本和大量行業(yè)數(shù)據(jù)加速,不同的資源需要統(tǒng)一平臺進行管理。比如,一個影視渲染行業(yè)的用戶,需要渲染一部大電影,他們可以通過青云的平臺進行分發(fā),即時構(gòu)建環(huán)境調(diào)度需要用到的渲染資源。
在AI訓(xùn)練方面,用戶通過開源的人類自然語言模型訓(xùn)練圖片、數(shù)據(jù),做模型微調(diào),再加上自己的行業(yè)知識,也能通過青云統(tǒng)一的多源資源調(diào)度管理平臺進行分發(fā)管理。
對于管理員來說,通過青云的平臺,只要通過一個管理界面、一個大屏,就能看到其分布在全國的2000臺資源,3000個存儲節(jié)點等等,以最少的人力大大提升管理運維效率。
二、解決AI應(yīng)用的網(wǎng)絡(luò)瓶頸。青云通過多種方式來解決網(wǎng)絡(luò)瓶頸的問題。在高速組網(wǎng)方面,青云基于傳統(tǒng)的云計算領(lǐng)域,增加了高速網(wǎng)絡(luò),并針對不同種類和型號的網(wǎng)卡做了網(wǎng)卡虛擬化和完全的子網(wǎng)隔離,以確保用戶無論是按卡申請還是按節(jié)點申請,都能保證數(shù)據(jù)的安全隔離,保證用戶之間不存在這種數(shù)據(jù)的風(fēng)險。
在通信鏈路方面,這也是青云在AI算力調(diào)度平臺著力最多的地方。青云將所有的節(jié)點、服務(wù)器、存儲設(shè)備都做出了路徑標(biāo)簽,設(shè)置最佳路徑距離。通過算法,投入調(diào)度最短鏈路,計算最短鏈路,保證最好是兩個節(jié)點在一個交換機內(nèi),這樣不跨交換機,又減少一些數(shù)據(jù)的傳輸損耗。
針對AI訓(xùn)練,青云提供了在線訓(xùn)練平臺。把高性能計算、GPU卡等匯集成起來,在專屬的環(huán)境上,提供GPU服務(wù)器在線申請構(gòu)建集群,所有的網(wǎng)絡(luò)和環(huán)境都可一鍵生成。并且青云會根據(jù)行業(yè)內(nèi)常用的模型和小工具,進行集成。同時,青云在每個區(qū)域都有一個小型的容器鏡像中心,與鏡像節(jié)點和推理服務(wù)進行內(nèi)網(wǎng)連接,這使得訓(xùn)練過程更快,遠比在公網(wǎng)上拉數(shù)據(jù)等要快得多。
第三,解決環(huán)境搭建的復(fù)雜性問題。算力中心面向眾多的終端用戶,這就注定了它的復(fù)雜性。在環(huán)境搭建方面,青云有兩種方式為客戶提供常用的鏡像或者容器。
第四,解決多業(yè)務(wù)整合的瓶頸問題。青云目前已將更多的業(yè)務(wù)以松耦合的模式嵌入整合到青云云平臺。
第五,解決運維平臺的復(fù)雜管理問題。青云提供了更多的運營服務(wù),尤其是算力中心服務(wù)。以國家超算濟南中心為例,其后端團隊,既要運維軟件還要負責(zé)客戶的各類運維問題,這就需要投入大量的人力還耗時耗力。青云通過一套運維平臺,讓其定價、打折、促銷等,只需要在頁面上點擊按鈕就可實現(xiàn),而不再需要通過申請表的傳統(tǒng)方式實現(xiàn)。
總結(jié)而言,青云AI算力調(diào)度平臺的特性主要有:第一,基于多種芯片,包括通用CPU、英偉達GPU、信創(chuàng)芯片等等;第二,全生命周期的管理;第三,AIGC業(yè)務(wù)化;第四,通過業(yè)務(wù)化、自動化,讓非計算機行業(yè)用戶能一鍵運行數(shù)據(jù)、業(yè)務(wù)和模型等。
開放的生態(tài)圈,實現(xiàn)AI整體能力的整合
青云AI算力調(diào)度平臺是算力中心運營者的關(guān)鍵工具,目前其服務(wù)的對象主要為現(xiàn)在和未來投入算力中心建設(shè)的企業(yè)——現(xiàn)在的投資者和未來的運營者。
青云把多年運營服務(wù)的經(jīng)驗融入到了產(chǎn)品、服務(wù)體系,并在國家超算濟南中心有了成功實踐。國家超算濟南中心是一個包括HPC超算、傳統(tǒng)云計算(以CPU為主)、智算(兼有國外及國產(chǎn)GPU)的多元計算中心。和眾多算力中心一樣,國家超算濟南中心需要的是滿足客戶需求的、成熟的運營工具和平臺。平臺能力越強,能支撐客戶的業(yè)務(wù)種類越多,客戶越多,盈利模式越清晰。
青云認(rèn)為未來 AI 時代,企業(yè)一定是通過算力服務(wù)、算法和模型、高價值的數(shù)據(jù)來實現(xiàn)智能化,這也是 AI 生態(tài)體系的價值所在。青云也清醒地認(rèn)識到與不同領(lǐng)域的合作伙伴一起實現(xiàn)整體能力的整合,才能夠更好地幫助企業(yè)實現(xiàn) AI 真正的業(yè)務(wù)價值。
干自己最擅長的AI算力資源調(diào)度,這也與青云科技十幾年來耕耘的云調(diào)度平臺、IaaS一脈相承。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!