計算的商業(yè)化,何以搭上了「碳中和」的列車?
作者 | 陳彩嫻
編輯 | 岑峰
在 2020 年中國高性能計算機性能 TOP100 的排行榜中,部署在國家超算中心(無錫)的「神威 · 太湖之光」依然穩(wěn)居第一,國家超算中心(廣州)的「天河二號升級系統(tǒng)」位列第二,而榮登榜眼的,卻是此前名不見經(jīng)傳的北京超級云計算中心 A 分區(qū)。
這一排名,讓許多此前并不知道北京超級云計算中心的朋友大吃一驚:「超級云計算」是什么?北京超級云計算中心的「A 分區(qū)」究竟實力何在?
盡管大家對 A 分區(qū)的研制廠商戴爾(DELL)多有耳聞,但對 A 分區(qū)所部署的北京超級云計算中心卻幾乎一無所知,顧名思義,更容易將其與國家超算中心混淆。
這座超算中心成立于 2011 年,雖由中國科學院計算機網(wǎng)絡信息中心孵化、北京懷柔區(qū)政府支持成立,但卻不在國家的 8 個超算中心之列。
眾所周知,我國第一個國家超算中心成立于 2009 年,由天津濱海新區(qū)與國防科技大學合作共建,斥資 6 億。此后,國家又陸續(xù)在多個東部城市建立了超算中心:濟南、深圳、廣州、長沙、無錫、鄭州、昆山……
其「政府 + 高?!沟暮献髂J诫m與國家超算相似,但自創(chuàng)立之初,北京超級云計算中心的核心理念便注定了它的不同。
從 2011 年到 2020 年,北京超級云計算中心何以從一個籍籍無名的超算中心,成為躋身于中國高性能計算機 TOP100 榜單一員、并僅次于兩個國家超算中心的明星超算呢?
在中國高性能計算盛會 CCF HPC China 2021 中,我們有幸采訪了北京超級云計算中心的 CTO 郭宇,與他一同探究該中心的「成名之道」。
從建設的模式來看,北京超級云計算中心與國家超算中心有許多不同之處,其中,最大的不同便是:國家超算中心注重科研支持,而北京超級云計算中心的核心理念是超算商業(yè)化。
按照郭宇的話說,是「像設計產(chǎn)品一樣設計超算。」
被譽為「國之重器」的超級計算機,向來是大國之間的必爭之地。長久以來,這也形成了國家超算獨當一面、民間超算不為人知的局面。然而,任一行業(yè)的發(fā)展,必然是多方力量的融合與交匯,百花齊放,從而共同推進領域的前進。
那么,在中國的超算領域內,北京超級云計算中心的位置在哪里?優(yōu)勢是什么?
1
超算市場的形成
回顧 2011 年北京超級云計算中心的成立節(jié)點,除了兩個國家超算中心(天津與濟南)的成立所帶來的信號,超算市場的爆發(fā)早在過去的五年便有了行業(yè)的鋪墊與基礎:
2005 年以前,CPU 處理器處于「單核時代」,一個 CPU 只有一個核心。如果一臺服務器上有兩個 CPU,那么,搭建一個 1024 核的 CPU 則需要 512 個節(jié)點,12 個機柜,因為一個機柜最多只能裝40個節(jié)點。而每個機柜的寬度為 60 公分,12 個機柜則是 7.2 米,相當于一個普通教室的寬度。
但從 2006 年開始,CPU 處理器開始進入了「雙核」、并逐步拓展到「多核」時代。雙核處理器的出現(xiàn),基于 x86 的計算架構,英特爾與 AMD 在 CPU 服務器市場中的主導地位也就此形成:
2006 年年中,AMD 率先推出 AM2 平臺。兩個月后,英特爾發(fā)布 Conroe,性能直接提高 40%,與此同時,功耗也降低了 40%。但英特爾并不「就此罷休」,同年 11 月又直接推出全新的四核處理器 Kentsfield,直接把 CPU 推進了「多核時代」。
與單核的 CPU 相比,多核 CPU 的并行處理能力更強、計算密度也更高,并大大減少了散熱與功耗。后來,CPU 出現(xiàn)了 8 核、12 核、16 核……目前一個 CPU 最高已能達到 64 核。對于許多關注高性能計算的行業(yè)從事人員來說,他們認為,多核 CPU 必然會帶來計算與任務的并行化,也就是說,超算市場在未來會迎來爆發(fā)。
因此,回顧超算市場的發(fā)展歷史,在 CPU 進入「多核時代」后,北京超級云計算中心的成立,是卡在了CPU算力爆發(fā)的起點。但當時,北京超級云計算中心還未正式開始商業(yè)化的探索,前期工作也主要以維護中科院計算機網(wǎng)絡信息中心的超算集群,支持院內科研項目為主。
除了技術的加持,國家超算中心的陸續(xù)成立,也逐漸在國內孵化了一個算力的市場。
國家超算中心的建設模式是:科技部與地方政府各出一部分資金建設好國家超算中心后,在運營階段,超算中心的部分運營費用由地方政府的財政補貼,同時,國家部委和地方政府向部分高??蒲腥藛T開放課題申請,由高??蒲腥藛T從課題經(jīng)費中支出部分資金到國家超算中心去采購計算資源。
在這樣的模式下,國內逐漸形成了一個商業(yè)循環(huán)的算力市場。隨著國家超算中心的出現(xiàn),科研院所與高校逐漸縮減自建超算的規(guī)模,增加對外部超算資源的采購。如此一來,超算市場的用戶越來越多,對超算的需求也不斷增加。當市場擴大到一定的程度,必然會出現(xiàn)分化,分為尖端超算市場、通用超算市場與行業(yè)超算市場。
對于國家超算中心來說,服務如此分化明顯的市場并不是一件易事,且國家超算中心存在的目的主要是支持國家大課題(如航空、宇宙、氣象等)、推進科研進步。這就造成了超算市場的服務縫隙:海量需要超算資源的小課題用戶在提出需求時,并不能得到滿足。
正是看到超算市場的這一縫隙,2018 年,北京超級云計算中心開始了超算商業(yè)化的探索,希望能夠提供「隨需擴容」的計算服務,滿足尖端超算以外的大規(guī)模通用超算市場。
2
超算商業(yè)化探索
中國高性能計算機 TOP100 的榜單排名由超級計算機計算能力決定,而計算能力主要由超級計算機的單節(jié)點性能與集群規(guī)模決定。
北京超級云計算 A 分區(qū)的 Linpack 測試性能達 3.743PFlops,計算峰值性能達 7.035PFlops,CPU 核數(shù)達到 192000,幾乎是第四名往后的計算機的三倍及以上。
據(jù)郭宇介紹,A 分區(qū)從 2019 年年底開始建設,而后在 2020 年逐步擴容到 3000 節(jié)點,背后的原因并不是為了爭奪 TOP3,而是為了滿足客戶的需求。
在郭宇看來,國內的超算市場可以大致分為三類:尖端超算、通用超算與行業(yè)超算。其中,國家超算中心所服務的需求市場,便主要是尖端超算市場,滿足尖端超算需求的超級計算機,以難度高、設計性能平衡為主,要兼顧計算、訪存、通信與 I/O 等,服務對象是國家級的科研項目,重點是出成果,而不是盈利。
而北京超級云計算中心的目標市場是通用超算,主要面向萬核以下(尤其是千核以下)的應用,為需求不一的海量用戶提供租賃式超算服務。對于北京超級云計算中心來說,他們的目標是超算的商業(yè)化運營,實現(xiàn)超算業(yè)務的盈利,反哺到中心建設的投入中,實現(xiàn)自給自足、靈活外延的正循環(huán)。
「讓計算不排隊」,是北京超級云計算中心的核心理念。
從 2011 年成立至今,北京超級云計算中心經(jīng)歷了兩個主要的階段:
剛成立的幾年,北京超級云計算中心以運營中科院體系內的超算為主,包括中科院計算機網(wǎng)絡信息中心在 2014 年推出的超級計算機「元」、2015 年的「元」二期等等。在這一階段,北京超級云計算中心的建設模式、運營模式與國家超算中心的體系有許多相同之處。
到了 2017 年,他們逐漸發(fā)現(xiàn)了上述所說的國家超算中心無法滿足的外溢市場需求。隨著國內科研發(fā)展的深入推進,高校教師對計算的需求越來越大,超算的用戶類型也越來越多,應用越來越復雜,用戶對計算機的服務要求也越來越高。
比方說,有些用戶做計算,并不是簡單地將一個程序放到超級計算機上就可以直接運行,而是需要在Linux 命令行窗口下將源代碼進行編譯、調優(yōu)、集成甚至更復雜的適配移植,這對廣大只熟悉 Windows 操作系統(tǒng)的用戶來說過于復雜。
國家超算中心的主要任務是支持重量級的科研項目,取得出色的學術成果,如此一來,國家超算中心的計算資源自然會優(yōu)先分配給重要的科研團隊,這就導致了許多中小用戶享受不到好的服務,出現(xiàn)「排隊計算」的情況。
基于這一行業(yè)需求,北京超級云計算中心便思考從商業(yè)運營的角度去解決國家超算中心的這部分外溢需求,根據(jù)這部分通用超算客戶需求設計超級計算機和超算服務產(chǎn)品,通過靈活的方式將計算資源提供給超算市場的中小微「散戶」。
于是,2018 年,北京超級云計算中心發(fā)布了「中國科技云 · 超算云」,開始了超算商業(yè)化的探索征程。
他們以云服務的方式輸出超算資源,注重商業(yè)化運營,遵循「隨需供應」、「按需擴容」的理念,在兩年間占領了一定的超算市場,贏取了客戶的信任,在吸引更多中小用戶的過程中對 A 分區(qū)進行了擴容與提升,最終在 2020 年贏得了中國高性能計算機 TOP100 排行榜的第三名。
郭宇表示:「贏得 TOP3 是結果,不是目的。我們打造超算,本心是為了服務客戶,獲得該榮譽是錦上添花?!?/p>
相對于聚焦 TOP3 的排名,郭宇更希望大家看到 A 分區(qū)背后的北京超級云計算中心及其獨特的建設與運營模式。
3
關于「計算」模式的新思考
郭宇提出了一個有意思的觀點:作為一種「產(chǎn)品」,超算的獨特之處在于,在用戶購買超算資源時,用戶需要的并不是超級計算機,而是想要解決問題。就像人們在購買電鉆時,他們想要的并不是電鉆,而是電鉆在墻上鉆出的洞。
所以,在市場上推廣計算資源時,北京超級云計算中心往往是強調「客戶服務」,而不只是中心的資源情況。
從 A 分區(qū)來看,我們不難發(fā)現(xiàn),北京超級云計算中心與國家超算中心的模式多有不同:
首先是建設周期。國家超算中心由科技部或地方政府出資,超級計算機的項目申報需要經(jīng)過層層審批,建設周期一般為 3-5 年,而 A 分區(qū)由北京超級云計算中心根據(jù)市場需求決定。此外,A 分區(qū)的建設主要基于市場上已有的技術設備,減少了技術攻關的時間成本。
比如,A 分區(qū)從 2019 年年底開始建設,從一個試驗性的小集群到面向用戶開放,2020 年年中擴容,只用了5周便擴容 1000 個節(jié)點,后續(xù)又逐步擴容至3000節(jié)點。
其次是分布位置。從地圖上看,我們不難發(fā)現(xiàn),國家超算中心基本分布在東部城市,而北京超級云計算中心的超算則主要分布在中西部,尤其是西部。A 分區(qū)便是分布在寧夏。超算中心是「耗電大戶」,從商業(yè)運營的角度看,西部的電價明顯更低。
在建設 A 分區(qū)的時候,國家還沒有發(fā)布十四五計劃,「碳達峰」與「碳中和」的概念還未興起。郭宇談道,從北京超級云計算中心的角度來看,他們在建設 A 分區(qū)時,主要是遵循商業(yè)運營的邏輯,而今年「雙碳」熱點出現(xiàn)后,他們意外地發(fā)現(xiàn),自己的路線竟契合了國家的「雙碳」戰(zhàn)略。
「西部有風力發(fā)電、光伏發(fā)電,能源豐富,而且年平均氣溫比較低,十分適合計算中心的生存,所以我們將西部作為主要的節(jié)點。而且超算業(yè)務對實時通訊的需求不高,用戶更關心的是產(chǎn)品的價格,至于機器是在本地、還是在幾千公里以外的西部,他們并不關心?!构罱忉?。
北京超級云計算中心面向通用超算,用戶數(shù)量大,符合長尾效應。郭宇談道:「有這些特點的市場,是比較適合用互聯(lián)網(wǎng)的方式去服務的。一是降低單用戶的成本,二是貼身服務。」
所以,無論是計算選址的確定,還是「超算 + 云服務」的互聯(lián)網(wǎng)運營模式,都體現(xiàn)了北京超級云計算中心在計算供應中注重靈活與性價比的特點。
從 A 分區(qū)所搭配的 CPU 來看,也可窺見北京超級云計算中心的商業(yè)運營理念:
A 分區(qū)采用的是 AMD 在 2019 年推出的第二代 EPYC(霄龍)服務級處理器,代號羅馬(Rome),基于 7nm 工藝,搭載 64 核心 128 線程,在提升核心數(shù)量的同時也提升了時鐘速度,加速頻率可達 3.4GHz。
從計算機的角度來看,計算總共可以分為 4 種類型:計算密集型、訪存密集型、存儲密集型(I/O 密集型)與網(wǎng)絡通信密集型。北京超級云計算中心的主要客戶是訪存密集型的應用, A 分區(qū)用戶的特點是:計算規(guī)模不大,價格敏感。而羅馬處理器主頻適中,計算性能適中,能耗低,性價比高,顯然更有利于商業(yè)運營。
郭宇坦言,北京超級云計算中心的目標并不是打造出像「神威 · 太湖之光」或「天河二號升級系統(tǒng)」這樣各方面性能均衡又出色的超級計算機,而是找到自己的市場定位,為目標用戶提供適合他們的超算方案。
根據(jù)處理器的類別,北京超級云計算中心的超算分區(qū)可以劃分為四大系列:
基于 AMD 芯片的 A 分區(qū)與 M 分區(qū),以及 A 分區(qū)的加強版「A6 分區(qū)」
基于英特爾芯片的 T 分區(qū)與 L 分區(qū)
基于國產(chǎn)芯片的分區(qū)
基于英偉達芯片的 AI 智算云,比如 N17、N19 區(qū)
根據(jù)不同用戶的需求,北京超級云計算中心設立了不同的分區(qū)去滿足這些需求。比如,榮登 2020 年中國高性能計算機 TOP100 榜單的 A 分區(qū)便是專門針對計算密集型與訪存密集型的用戶,存儲性能加強的 I/O 分區(qū)專門面向 I/O 密集型用戶等等。
「中國科技云 · 超算云」匯聚了國家超算中心、互聯(lián)網(wǎng)云計算中心等資源,可以為用戶提供定制化的計算服務。同時,他們揭開了高性能計算的「神秘面紗」,為用戶提供運行問題解答、參數(shù)配置優(yōu)化、定制化腳本編寫等一系列服務,更有一對一專屬微信群、7 × 24 小時人工值守與 5 分鐘快速響應等機制。
4
自主研發(fā)離不開計算
近年來,越來越多企業(yè)高舉「自主研發(fā)」的旗幟。與此同時,產(chǎn)品的迭代周期加快。為了快速滿足市場的需求,研發(fā)人員會越來越多地利用數(shù)字化技術進行模擬仿真,其間產(chǎn)生大量數(shù)據(jù),對計算的需求也會越來越多。
事實上,從 2010 年以來,許多企業(yè)也陸續(xù)建立了計算中心,但他們同樣面臨建設周期長、內部計算資源協(xié)調難、計算排長隊的現(xiàn)象。企業(yè)一般是基于項目的優(yōu)先級進行計算資源的分配,但人工協(xié)調的效率較低,影響了研發(fā)項目的進展。
郭宇認為,隨著人們對云計算優(yōu)勢的認識加深,云計算的市場也在不斷擴大。在新基建中,「數(shù)據(jù)中心」對應的便是云計算,云計算是數(shù)字化轉型的基礎。同時,隨著「雙碳」規(guī)劃的推進,碳排放指標也將成為自建超算中心發(fā)展的限制因素之一。而北京超級云計算中心在分布位置上的先見之明,無疑將在未來的逐鹿上優(yōu)勢漸顯。
作為國內第一家成規(guī)模的、市場化運營的超算中心,北京超級云計算中心的建設模式,啟示了中國超算市場的發(fā)展現(xiàn)狀:除了國家超算中心,越來越多由地方政府支持、市場化資本創(chuàng)辦的超算中心展示了其在推進中國超算發(fā)展上的獨特優(yōu)勢。
比如,在 2020 年中國高性能計算機 TOP100 的榜單排名上,除了北京超級云計算中心 A 分區(qū)獲得佳績,內蒙古和林格爾新區(qū)的內蒙古高性能計算公共服務平臺(青城之光)位居第四。
除了尖端超算與通用超算,中國的超算市場還有一股重要的力量:公有云廠商,比如阿里云、華為云與亞馬遜云(AWS)。北京超級云計算中心的另一塊重要業(yè)務——行業(yè)超算,便與這股力量有所交織與重疊。
行業(yè)超算更注重實際業(yè)務,應用規(guī)模為單核到幾千核不等,超算只是業(yè)務中的一環(huán)。比方說,在基因測序的過程中,基因測序儀產(chǎn)生大量數(shù)據(jù),這時候,如果數(shù)據(jù)存儲在云上,使用云的存儲、網(wǎng)絡與計算資源等等服務進行基因的測序與分析,那么整個業(yè)務流程就會十分流暢。
對于這類業(yè)務流程,郭宇認為,單靠通用超算是很難滿足的。從北京超級云計算中心的角度來看,他們會考慮將通用超算與云廠商的云服務資源相結合。除了核心的計算業(yè)務,公有云廠商還提供豐富的云服務組件,能更好地解決用戶的問題。
「對用戶來說,解決問題最重要。至于計算資源來自哪里,他們并不在乎。我們就是要把各種優(yōu)勢的資源組合在一起,滿足客戶的需求?!构钫劦?。
從 2018 年至今,北京超級云計算中心已服務超過 15 萬用戶, 已實現(xiàn)連續(xù)盈利。
比如,北京超級云計算中心曾支持中科院力學所研究中速磁浮列車的空氣動力學外形優(yōu)化設計。中速磁浮列車氣動外形優(yōu)化研究需要針對一系列優(yōu)化外形進行數(shù)值模擬研究,對計算資源的要求較高,單工況網(wǎng)格量約 6000 萬左右,流場特性研究及外形優(yōu)化研究中產(chǎn)生的計算工況上百計。
在這個項目中,北京超級云計算中心提供了可靈活拓展的大量計算節(jié)點,保證了多任務的提交計算。最終,他們確定的最優(yōu)化流線外形,相對于原始外形,頭車氣動升力系數(shù)增加了 33.25%,尾車氣動升力系數(shù)減少了 1.78%,整車氣動阻力系數(shù)減小了 4.44%,大幅提升了中速磁浮列車的氣動性能。
「從用戶的角度看,建設幾千核的計算資源,先不說時間,就投資成本來講,現(xiàn)在的主流服務器,一個節(jié)點大概是 40 核心,如果他用的是 5000 核的計算資源,那么就需要 125 個節(jié)點,125 個節(jié)點大概需要投資1200多萬,但他們的項目時長只有兩個月?!构罱榻B。
因此,從投入產(chǎn)出比來看,對一些短期的項目來說,直接采購計算資源顯然更劃算。
5
計算緊跟時代
在郭宇看來,目前國內的超算市場展示了以下三個趨勢:
趨勢一:國內的企業(yè)越發(fā)重視自主研發(fā),計算需求增加,同時也越來越愿意接受云計算的模式。
趨勢二:國產(chǎn)化的推進加深。在超算體系中,芯片、操作系統(tǒng)、應用等等方面的國產(chǎn)化趨勢將越來越明顯。
趨勢三:計算體系架構正在革新。隨著人工智能、加速計算的興起,以異構計算、加速卡為引導的 GPU 力量正在崛起。
郭宇談起,他在 2019 年去美國參加全球超級計算大會(SC19)時,席間與美國高校的老師聊天,得到的訊息便是:「在現(xiàn)在的環(huán)境下,如果你沒有搞點 GPU 的加速計算,文章都難發(fā)。從學術的角度看,CPU 體系已經(jīng)研究地差不多,下一個重點就是 GPU。」
2021 年正好是北京超級云計算中心成立的十周年。作為一家商業(yè)化運營的超算中心,郭宇介紹:「我們肯定會堅定不移地走超算商業(yè)化的道路。與此同時,他們也會與時俱進,根據(jù)國內超算市場的發(fā)展趨勢,制定新的發(fā)展方針。
緊跟學術界的研究趨勢,北京超級云計算中心也加大了在 GPU 計算領域的投入,建設基于 GPU 加速卡的計算分區(qū)。隨著人工智能計算的興起,以及異構計算模式的變化,他們也順勢建立了「AI智算云」,以滿足部分從事人工智能研究學者的需求。
相應地,針對企業(yè)的自主研發(fā)需求,北京超級云計算中心也逐步推出了一系列面向企業(yè)的計算資源,比如針對 CAD 三維設計和中小規(guī)模 CAE 仿真計算的設計仿真云,支持海量中小企業(yè)實現(xiàn) " 云上研發(fā) ",可以極低成本起步,推動中小企業(yè)高速發(fā)展,為國家中小企業(yè)發(fā)展打造堅實云上研發(fā)平臺。針對超算體系國產(chǎn)化的趨勢,他們也有了基于國產(chǎn)芯片的集群,與國產(chǎn)軟件廠商合作,通過云化的方式,幫助國產(chǎn)應用更好地觸及用戶。
在郭宇看來,「讓計算不排隊」不僅是一句口號,更是切實、堅定的實踐。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!