目前GPU服務(wù)器主要應(yīng)用于科學(xué)計算、深度學(xué)習(xí)、高性能計算、視頻編解碼等不同場景領(lǐng)域。它為應(yīng)用程序提供非凡的加速計算能力,將應(yīng)用程序的計算密集型工作負載轉(zhuǎn)移到GPU上。根據(jù)Market Growth Insight數(shù)據(jù)顯示,到2026年底,應(yīng)用于人工智能市場的GPU份額預(yù)計將達到20億美元。
一、什么是GPU服務(wù)器?
GPU即圖形處理器,又稱顯示核心、視覺處理器、顯示芯片,是一種專門用做圖像和圖形相關(guān)運算工作的微處理器。GPU服務(wù)器是基于GPU的應(yīng)用于視頻編解碼、深度學(xué)習(xí)、科學(xué)計算等多種場景的快速、穩(wěn)定、彈性的計算服務(wù)。
二、GPU服務(wù)器有什么作用?
GPU加速計算可以提供非凡的應(yīng)用性能,能將應(yīng)用計算密集部分的工作量轉(zhuǎn)移到GPU中,同時CPU仍然運行其余的程序代碼。從用戶的角度來看,應(yīng)用程序的運行速度明顯加快。
理解GPU和CPU區(qū)別的一個簡單方法是比較它們處理任務(wù)的方式。CPU由幾個針對順序串行處理進行優(yōu)化的核心組成,而GPU則具有由成千上萬個更小、更高效的核心組成的大規(guī)模并行計算架構(gòu)(專為同時處理多個任務(wù)而設(shè)計)。
三、GPU服務(wù)器的主要應(yīng)用場景
1、海量計算處理
GPU 服務(wù)器超強的計算功能可應(yīng)用于海量數(shù)據(jù)處理方面的運算,如搜索、大數(shù)據(jù)推薦、智能輸入法等:
- 原本需要數(shù)天完成的數(shù)據(jù)量,采用 GPU 服務(wù)器在數(shù)小時內(nèi)即可完成運算。
- 原本需要數(shù)十臺 CPU 服務(wù)器共同運算集群,采用單臺 GPU 服務(wù)器可完成。
2、深度學(xué)習(xí)模型
GPU服務(wù)器可作為深度學(xué)習(xí)訓(xùn)練平臺:
- GPU服務(wù)器可直接加速計算服務(wù),亦可直接與外界連接通信。
- GPU服務(wù)器和云服務(wù)器搭配使用,云服務(wù)器為 GPU 服務(wù)器提供計算平臺。
- 對象存儲 COS 可以為 GPU 服務(wù)器提供大數(shù)據(jù)量的云存儲服務(wù)。
四、如何正確選擇GPU服務(wù)器?
選擇GPU服務(wù)器時,首先要考慮業(yè)務(wù)需求,選擇合適的GPU型號。在HPC高性能計算中,也需要根據(jù)精度進行選擇。比如一些高性能計算要求雙精度,這時如果用P40或P4就不合適,只能用V100或P100。同時對顯存容量也會有要求。比如石油或石化勘探中的計算應(yīng)用,對顯存的要求更高;有的還對總線標準有要求,所以GPU型號的選擇首先要看業(yè)務(wù)需求。
當(dāng)GPU型號選定后,再考慮用什么樣GPU的服務(wù)器。這時我們需要考慮以下幾種情況:
1、租用邊緣服務(wù)器時,需要根據(jù)數(shù)量選擇相應(yīng)的服務(wù)器如T4或P4,同時需要考慮服務(wù)器的使用場景,如火車站卡口、機場卡口或公安卡口等;中心端做Inference時可能需要V100的服務(wù)器;需要考慮吞吐量以及使用場景、數(shù)量等。
2、需要考慮客戶本身的使用人群和IT運維能力,對于BAT這樣的大公司來說,自身的運營能力比較強,所以這個時候會選擇通用的PCI-e服務(wù)器;對于一些IT運維能力不太強的客戶,更注重數(shù)字和數(shù)據(jù)標注。我們把這些人稱為數(shù)據(jù)科學(xué)家,選擇GPU服務(wù)器的標準會有所不同。
3、需要考慮配套軟件和服務(wù)的價值。
4、考慮整體GPU集群系統(tǒng)的成熟度和工程效率。比如像DGX這種集成GPU一體化的超級計算機,它有非常成熟的從底端的操作系統(tǒng)驅(qū)動Docker到其他部分都是固定且優(yōu)化過的,這時效率比較高。
作為國內(nèi)品牌服務(wù)器廠商,藍海大腦機架式GPU服務(wù)器擁有大規(guī)模并行處理能力和無與倫比的靈活性。它主要用于為計算密集型應(yīng)用程序提供足夠的處理能力。GPU的優(yōu)勢在于可以由CPU運行應(yīng)用程序代碼,同時圖形處理單元(GPU)可以處理大規(guī)模并行架構(gòu)的計算密集型任務(wù)。專用GPU服務(wù)器是醫(yī)療成像、廣播和視頻轉(zhuǎn)碼市場的理想選擇。
五、GPU服務(wù)器的種類有哪些?
對GPU服務(wù)器的分類,首先需要確定一個角度(維度)來對GPU服務(wù)器做分類。
1、按GPU服務(wù)器外形分類。 分為塔式GPU服務(wù)器、機架式GPU服務(wù)器
1)塔式GPU服務(wù)器
塔式GPU服務(wù)器機箱比較大,服務(wù)器的配置也可以很高,冗余擴展更可以很齊備,所以它的應(yīng)用范圍非常廣,應(yīng)該說使用率最高的一種服務(wù)器就是塔式服務(wù)器。我們平時常說的通用服務(wù)器一般都是塔式服務(wù)器,它可以集多種常見的服務(wù)應(yīng)用于一身,不管是速度應(yīng)用還是存儲應(yīng)用都可以使用塔式服務(wù)器來解決。成本低于機架、刀片服務(wù)器。由于機箱較大,具備良好的擴展能力和散熱性能,可以配置多路處理器、多根內(nèi)存、多塊硬盤、多個冗余電源和散熱風(fēng)扇。
2)機架式服務(wù)器
外形看不像計算機,而像交換機,有1U(1U=1.75英寸=4.445cm)、2U、4U等規(guī)格。機架式服務(wù)器安裝在標準的19英寸機柜里面。該結(jié)構(gòu)多為功能型服務(wù)器。
對于信息服務(wù)企業(yè)(如ISP/ICP/ISV/IDC)而言,選擇服務(wù)器時首先要考慮服務(wù)器的體積、功耗、發(fā)熱量等物理參數(shù),因為信息服務(wù)企業(yè)通常使用大型專用機房統(tǒng)一部署和管理大量的服務(wù)器資源,機房通常設(shè)有嚴密的保安措施、良好的冷卻系統(tǒng)、多重備份的供電系統(tǒng),其機房的造價相當(dāng)昂貴。如何在有限的空間內(nèi)部署更多的服務(wù)器直接關(guān)系到企業(yè)的服務(wù)成本,通常選用機械尺寸符合19英寸工業(yè)標準的機架式服務(wù)器。機架式服務(wù)器也有多種規(guī)格,例如1U(4.445cm高)、2U、4U、6U、8U等。通常1U的機架式服務(wù)器最節(jié)省空間,但性能和可擴展性較差,適合一些業(yè)務(wù)相對固定的使用領(lǐng)域。4U以上的產(chǎn)品性能較高,可擴展性好,一般支持4個以上的高性能處理器和大量的標準熱插拔部件。管理也十分方便,廠商通常提供相應(yīng)的管理和監(jiān)控工具,適合大訪問量的關(guān)鍵應(yīng)用,但體積較大,空間利用率不高。
2、按GPU服務(wù)器接口進行分類
目前市面上可以進行交付的主要是傳統(tǒng)PCI-e總線和NV-Link接口。
1)NV-Link總線技術(shù)標準GPU服務(wù)器
NV-Link接口GPU的典型代表是NVIDIA V100,采用SXM2接口。DGX 2上有一個SXM3的接口。具有NV-Link總線標準的GPU服務(wù)器可以分為兩類:一類是英偉達設(shè)計的DGX超級計算機,另一類是英偉達合作伙伴設(shè)計的具有NV-Link接口的服務(wù)器。DGX超級計算機不僅提供硬件,還提供相關(guān)的軟件和服務(wù)。
2)傳統(tǒng)PCI-e數(shù)據(jù)總線GPU服務(wù)器
傳統(tǒng)PCI-e總線GPU服務(wù)器分為兩類,一類是OEM服務(wù)器,如曙光、浪潮、華為等國際品牌;另一類是非OEM服務(wù)器,也包括很多種。
3、按服務(wù)器環(huán)境分類
加固GPU服務(wù)器 也叫抗惡劣環(huán)境GPU服務(wù)器。一般是指在特殊的環(huán)境下工作的GPU服務(wù)器,如:車載GPU服務(wù)器、彈載GPU服務(wù)器、機載GPU服務(wù)器、船舶GPU服務(wù)器等特殊行業(yè)應(yīng)用。不同應(yīng)用行業(yè)、不同應(yīng)用環(huán)境下的GPU服務(wù)器應(yīng)用指標也不相同。一般來說車載GPU服務(wù)器最重要的技術(shù)指標是高低溫指標,機載GPU服務(wù)器最重要的技術(shù)指標是震動指標(沖擊震動或均速震動),船舶GPU服務(wù)器最重要的技術(shù)指標是三防指標(鹽、霧、霜),彈載GPU服務(wù)器要求的技術(shù)指標是就更全面啦!生產(chǎn)廠商幾乎都是國家隊如:706、716、909等。
4、按GPU散熱分類
液冷GPU服務(wù)器和水冷GPU服務(wù)器最大的不同點是散熱的方式不同。水冷服務(wù)器散熱方式是水(水的熱效比目前是優(yōu)于液體的熱效比),但水有導(dǎo)電的通用性,所以水冷服務(wù)器目前還沒有在市上大量應(yīng)用,液冷GPU服務(wù)器則不同,液冷GPU服務(wù)器是綜合熱效比、導(dǎo)熱比、可靠性等各項指標技術(shù)的綜合性技術(shù)的產(chǎn)物。最大的特點就是靜音、節(jié)能35%。目前生產(chǎn)廠商有如:藍海大腦、阿里、百度、字節(jié)跳動(正在研發(fā)中)等。
5、按CPU品牌分類
按照GPU品牌類型可分為Intel 處理器的GPU服務(wù)器、AMD 處理器的 GPU服務(wù)器或者ARM芯片的GPU服務(wù)器等。
6、按應(yīng)用場景分類
按照應(yīng)用場景可將GPU服務(wù)器分為圖形加速GPU服務(wù)器(如視頻編解碼)、AI訓(xùn)練 GPU服務(wù)器、AI推理GPU服務(wù)器、科學(xué)計算GPU服務(wù)器。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!