當(dāng)前位置:首頁 >  科技 >  互聯(lián)網(wǎng) >  正文

IDC權(quán)威評(píng)測(cè)出爐,破解文心大模型3.5“大滿貫”密碼

 2023-07-23 16:23  來源: A5專欄   我來投稿 撤稿糾錯(cuò)

  域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過

作者 | 曾響鈴

文 | 響鈴說

12項(xiàng)指標(biāo)中,7個(gè)滿分,其中整體總分、算法模型、行業(yè)覆蓋三大指標(biāo)獲得唯一的5分,絕對(duì)的行業(yè)第一。

這是IDC最新發(fā)布的《AI大模型技術(shù)能力評(píng)估報(bào)告,2023》中,百度文心大模型3.5取得的成績(jī)。近乎“大滿貫”的表現(xiàn),全景展現(xiàn)了文心大模型3.5從基礎(chǔ)技術(shù)到產(chǎn)業(yè)應(yīng)用的能力與行業(yè)地位。

百模大戰(zhàn)背景下,這是第一次有來自權(quán)威機(jī)構(gòu)的評(píng)測(cè)為業(yè)界進(jìn)行大模型能力與價(jià)值的系統(tǒng)梳理。

7月初,百度方面就透露文心大模型已經(jīng)迭代到3.5版本,實(shí)現(xiàn)了基礎(chǔ)模型升級(jí)、精調(diào)技術(shù)創(chuàng)新、知識(shí)點(diǎn)增強(qiáng)、邏輯推理增強(qiáng)等,在能力效果上累計(jì)提升超過50%,訓(xùn)練速度提升了2倍,推理速度提升高達(dá)30倍,此外在內(nèi)容安全性方面也得到了很大的提升。

現(xiàn)在,第三方機(jī)構(gòu)又給出了全面而客觀的評(píng)價(jià),文心大模型坐實(shí)國(guó)內(nèi)第一已經(jīng)沒有疑問。

那么,文心大模型3.5憑什么取得這樣的成績(jī),憑什么得到這樣的高度認(rèn)可?

這一切,要從業(yè)界對(duì)大模型的根本訴求談起。

“AI原生應(yīng)用”才是大模型競(jìng)逐落腳點(diǎn),業(yè)界呼喚權(quán)威評(píng)測(cè)一錘定音

“新的國(guó)際競(jìng)爭(zhēng)戰(zhàn)略關(guān)鍵點(diǎn),不是一個(gè)國(guó)家有多少個(gè)大模型,而是你的大模型上有多少原生的AI應(yīng)用,這些應(yīng)用在多大程度上提升了生產(chǎn)效率。”

百度創(chuàng)始人、董事長(zhǎng)兼首席執(zhí)行官李彥宏在6月底世界互聯(lián)網(wǎng)大會(huì)的一次演講中指出。

大模型浪潮之所以廣泛而深入,關(guān)鍵原因還在于各行各業(yè)都在期待大模型對(duì)原本的業(yè)務(wù)進(jìn)行一次廣泛而深刻的變革。

這種變革與過去AI應(yīng)用只是“輔助”傳統(tǒng)業(yè)務(wù)線不同,它是徹底再造。

例如,百度自己就宣布要在未來要把所有業(yè)務(wù)都圍繞大模型重構(gòu),并已經(jīng)在一些場(chǎng)景和應(yīng)用上著手行動(dòng)。

因此,盡管大模型浪潮洶涌,各種玩家紛紛入場(chǎng),市面上大模型數(shù)量繁多,但最終能決定大模型價(jià)值的,一定是其能夠催生和支撐多少深入產(chǎn)業(yè)的AI原生應(yīng)用,能夠多大程度上去改變產(chǎn)業(yè)、改變時(shí)代。

這時(shí)候,市場(chǎng)呼喚的就不只是大模型,而應(yīng)該是能夠達(dá)到這種預(yù)期的大模型。

問題來了,這么多的大模型,誰才是“值得信任和托付”的那個(gè)?誰才能真正推動(dòng)AI原生應(yīng)用?

過去,很多大模型的發(fā)布也伴隨著某種“自我評(píng)價(jià)”,用一套自創(chuàng)的體系來給自己打個(gè)領(lǐng)先的分?jǐn)?shù)。

現(xiàn)在,國(guó)際知名數(shù)據(jù)公司IDC在全面剖析AI大模型發(fā)展情況的提前下,選取中國(guó)市場(chǎng)14家大模型技術(shù)廠商進(jìn)行綜合評(píng)估,無疑成為當(dāng)下最權(quán)威的評(píng)價(jià)參考。

有了權(quán)威評(píng)測(cè)一錘定音,誰最能符合AI原生應(yīng)用的時(shí)代要求,也就有了可信的參考。

而文心大模型3.5的凸顯,就是基于這個(gè)行業(yè)大背景,在多個(gè)維度實(shí)現(xiàn)了行業(yè)領(lǐng)先。

文心大模型3.5“大滿貫”,行業(yè)第一背后是三大維度的領(lǐng)先

先用一個(gè)圖直觀感受下文心大模型3.5的“大滿貫”:

此次IDC將大模型分為產(chǎn)品技術(shù)、服務(wù)生態(tài)以及行業(yè)應(yīng)用三個(gè)層面進(jìn)行測(cè)評(píng),主要考察算法模型、通用能力、創(chuàng)新能力、平臺(tái)能力、安全可解釋、行業(yè)覆蓋、生態(tài)合作、服務(wù)能力等指標(biāo)。

文心大模型3.5在雷達(dá)圖上處在絕對(duì)領(lǐng)先的地位,是技術(shù)突破者和產(chǎn)業(yè)應(yīng)用引領(lǐng)者。

細(xì)化拆解IDC報(bào)告,可以發(fā)現(xiàn)文心大模型3.5事實(shí)上完成了三個(gè)維度的領(lǐng)先,它們共同坐實(shí)了文心大模型3.5“行業(yè)第一”的地位。

1、多維能力完備且深入:成為從技術(shù)到應(yīng)用的“全能型選手”

大模型始于技術(shù)創(chuàng)新但終于全面的行業(yè)落地,一個(gè)優(yōu)質(zhì)的大模型首先需要在各個(gè)相關(guān)維度都做到出色,才能最終贏得市場(chǎng)選擇、創(chuàng)造時(shí)代價(jià)值。

這體現(xiàn)在IDC報(bào)告中由三個(gè)層面、多個(gè)維度評(píng)價(jià)分?jǐn)?shù)共同構(gòu)成的整體總分上。

文心大模型3.5獲得整體總分絕對(duì)第一,不僅沒有“木桶短板”,更在每個(gè)維度環(huán)節(jié)上都領(lǐng)先行業(yè),做到了“長(zhǎng)木板”的全面配置。

例如,要產(chǎn)品能力,文心大模型3.5在算法模型、通用能力、創(chuàng)新能力、平臺(tái)能力等維度全面領(lǐng)先;

要具體的應(yīng)用落地,文心大模型3.5既有產(chǎn)業(yè)覆蓋的廣度,又有能源、金融等領(lǐng)域介入的深度,等等。

凡是大模型創(chuàng)新關(guān)聯(lián)的維度所需要的,文心大模型3.5都以行業(yè)領(lǐng)先的姿態(tài)完全具備,成為領(lǐng)先的“全能型選手”。

2、單項(xiàng)能力扛鼎:在關(guān)鍵環(huán)節(jié)突破、掌握絕對(duì)話語權(quán)

在總體上“一個(gè)都不能少”后,考驗(yàn)大模型價(jià)值的,是特定的優(yōu)秀單項(xiàng)能力。

滿分的7項(xiàng)核心指標(biāo),文心大模型3.5獲得了國(guó)內(nèi)大模型“算法模型”維度評(píng)價(jià)唯一的滿分,在技術(shù)上處在領(lǐng)先地位。

大模型最直接、最核心的能力來源是“算法模型”,它決定了大模型的效果、效率、成本乃至最終應(yīng)用的價(jià)值。

“算法模型”的唯一滿分,表明文心大模型3.5在數(shù)據(jù)、算法模型結(jié)構(gòu)創(chuàng)新性、訓(xùn)練/推理成本優(yōu)化等方面都做到了行業(yè)領(lǐng)先,將最終推動(dòng)各行各業(yè)以更低門檻享受優(yōu)質(zhì)大模型的時(shí)代紅利。

而宏觀來看,算法的突破向來是大模型的競(jìng)爭(zhēng)核心所在,文心大模型3.5獲得IDC唯一滿分的評(píng)價(jià),某種程度上也表明其代表整個(gè)行業(yè)進(jìn)行著能力的突圍,在技術(shù)上引領(lǐng)國(guó)內(nèi)大模型算法的發(fā)展,承載著行業(yè)發(fā)展的使命。

3、應(yīng)用價(jià)值引領(lǐng):應(yīng)用深入融合一線業(yè)務(wù)

只有能夠在具體產(chǎn)業(yè)場(chǎng)景中產(chǎn)生廣泛而深度的價(jià)值,大模型自身的意義才能得以彰顯。而評(píng)價(jià)大模型行業(yè)應(yīng)用能力最直接的指標(biāo),是到底覆蓋了多少行業(yè),以及在行業(yè)中是否做到了與業(yè)務(wù)的深度融合、創(chuàng)造現(xiàn)實(shí)價(jià)值。

文心大模型3.5做到了行業(yè)覆蓋絕對(duì)第一,這背后是百度在過去長(zhǎng)期服務(wù)政企數(shù)智化轉(zhuǎn)型過程中積累的“懂行”特性,推動(dòng)文心大模型3.5已經(jīng)提前進(jìn)入廣泛的產(chǎn)業(yè)落地探索階段。

百度文心已經(jīng)聯(lián)合聯(lián)合國(guó)家電網(wǎng)、浦發(fā)銀行、泰康、吉利、哈爾濱市、深圳燃?xì)?、TCL、上海辭書出版社等企業(yè)單位,合作發(fā)布了11個(gè)行業(yè)大模型。

以能源電力為例,在全球最大的公用事業(yè)企業(yè)——國(guó)家電網(wǎng)有限公司,面向復(fù)雜電網(wǎng)的專業(yè)場(chǎng)景,基于百度文心大模型,百度與智研院聯(lián)合訓(xùn)練電力行業(yè)大模型,在電網(wǎng)設(shè)備、客服等實(shí)際業(yè)務(wù)場(chǎng)景進(jìn)行試點(diǎn)驗(yàn)證,可以顯著增強(qiáng)電網(wǎng)運(yùn)營(yíng)的精細(xì)化、自動(dòng)化、智能化水平。百度也和深圳燃?xì)饴?lián)合發(fā)布了燃?xì)庑袠I(yè)大模型,破解燃?xì)馄髽I(yè)運(yùn)營(yíng)場(chǎng)景繁雜、安全風(fēng)險(xiǎn)識(shí)別困難等難題。

目前,文心大模型已經(jīng)擁有中國(guó)最大的產(chǎn)業(yè)應(yīng)用規(guī)模,有15萬家企業(yè)申請(qǐng)接入文心一言測(cè)試,百度智能云也與300多家生態(tài)伙伴在超過400個(gè)場(chǎng)景中取得相當(dāng)不錯(cuò)的大模型應(yīng)用測(cè)試效果。

未來,料想文心大模型還將在更多產(chǎn)業(yè)場(chǎng)景進(jìn)行更深度的業(yè)務(wù)需求融合,如李彥宏所言,催生大量“AI原生應(yīng)用”,切實(shí)“提升生產(chǎn)效率”。

回過頭來看,文心大模型3.5引領(lǐng)大模型賽道的行業(yè)覆蓋廣度,與其在算法模型能力扛鼎又有直接的關(guān)聯(lián),后者支撐前者不斷拓展,前者為后者提供持續(xù)的實(shí)踐反哺,一個(gè)持續(xù)迭代提升的飛輪就此形成。

可以說,文心大模型3.5在這兩個(gè)指標(biāo)上的唯一滿分,表達(dá)出“產(chǎn)品技術(shù)最為領(lǐng)先”、“行業(yè)應(yīng)用最為廣泛深入”二者相輔相成的關(guān)系,也為文心大模型3.5構(gòu)建起牢不可破的護(hù)城河。

文心穩(wěn)坐國(guó)內(nèi)第一后,大模型產(chǎn)業(yè)生態(tài)“一超多強(qiáng)”格局已現(xiàn)

事實(shí)上,除了IDC報(bào)告,很多其他的專業(yè)評(píng)測(cè)也在佐證文心大模型的行業(yè)地位。

不久前,中國(guó)科學(xué)報(bào)公布了一項(xiàng)綜合了AGIEval、C-Eval、MMLU三大權(quán)威基準(zhǔn)測(cè)試的評(píng)測(cè)結(jié)果,顯示文心大模型3.5在多個(gè)測(cè)試集的得分已超過ChatGPT,且中文能力超越GPT-4。

文心大模型3.5不僅在國(guó)內(nèi)絕對(duì)領(lǐng)先,也實(shí)現(xiàn)了對(duì)國(guó)際主流大模型的超越,可以與當(dāng)下最前沿的大模型掰手腕。

文心大模型3.5之所以能夠做到這樣的成績(jī),與百度過去的積累直接相關(guān)。

基于長(zhǎng)期的AI創(chuàng)新與實(shí)踐,在2019年,百度就開始深耕預(yù)訓(xùn)練模型研發(fā),先后發(fā)布知識(shí)增強(qiáng)文心系列模型。

大模型是技術(shù)發(fā)展的一大步,卻某種程度上只是AI的一小步,在這里不存在所謂“黑馬”,能夠凸顯的只有那些長(zhǎng)期在AI領(lǐng)域耕耘與實(shí)踐的績(jī)優(yōu)“白馬”。

百度已經(jīng)實(shí)現(xiàn)了“芯片-框架-模型-應(yīng)用”人工智能四層技術(shù)棧的獨(dú)特優(yōu)勢(shì),是全球?yàn)閿?shù)不多的擁有全棧布局的科技公司,而且在每個(gè)層面都具備了領(lǐng)先的自研產(chǎn)品和技術(shù)。

特別是框架層的飛槳和模型層的文心實(shí)現(xiàn)了聯(lián)合優(yōu)化,前者最先進(jìn)的大模型訓(xùn)練和推理部署技術(shù)能夠幫助后者實(shí)現(xiàn)快速迭代,并實(shí)現(xiàn)效率和效果的提升。

現(xiàn)在,文心大模型還在不斷發(fā)展。

例如,3.5版本新增的插件機(jī)制直接擴(kuò)增了大模型的能力邊界,在文心一言中,“百度搜索”插件讓其具備生成實(shí)時(shí)準(zhǔn)確信息的能力,長(zhǎng)文本摘要和問答插件“ChatFile”插件則支持超長(zhǎng)文本輸入和摘要生成。下一階段,文心一言還會(huì)發(fā)布更多優(yōu)質(zhì)官方插件和第三方插件,并將開放插件生態(tài)給第三方開發(fā)者。

今天的中國(guó)大模型賽道上,可以說,文心大模型3.5詮釋了“比你厲害的還比你更努力”這句話。

面向未來,大模型的高入門門檻與能力差距的不斷拉大,將逐步改變當(dāng)下的百模競(jìng)逐行業(yè)格局。

未來的市場(chǎng),只會(huì)留下那些能夠完整、深度支撐AI原生應(yīng)用的廠商,百度等少數(shù)玩家將形成一個(gè)個(gè)的生態(tài)核心,與垂直領(lǐng)域的生態(tài)伙伴一起賦能千行百業(yè)。

在這個(gè)過程中,穩(wěn)坐國(guó)內(nèi)第一、沖擊全球領(lǐng)先的文心大模型將成為超級(jí)一極,與其他幾個(gè)強(qiáng)力玩家一起以“一超多強(qiáng)”的格局推動(dòng)繁榮的大模型時(shí)代到來。

*本文圖片均來源于網(wǎng)絡(luò)

*此內(nèi)容為【響鈴說】原創(chuàng),未經(jīng)授權(quán),任何人不得以任何方式使用,包括轉(zhuǎn)載、摘編、復(fù)制或建立鏡像。

#響鈴說 Focusing on企業(yè)數(shù)字化與產(chǎn)業(yè)智能化升級(jí),這是關(guān)注一切與創(chuàng)業(yè)、產(chǎn)業(yè)和商業(yè)相關(guān)的降本增效新技術(shù)、新模式、新生態(tài) NO.351深度解讀

【完】

曾響鈴

1鈦媒體、品途、人人都是產(chǎn)品經(jīng)理等多家創(chuàng)投、科技網(wǎng)站年度十大作者;

2 虎嘯獎(jiǎng)評(píng)委;

3 作家:【移動(dòng)互聯(lián)網(wǎng)+ 新常態(tài)下的商業(yè)機(jī)會(huì)】等暢銷書作者;

4 《中國(guó)經(jīng)營(yíng)報(bào)》《商界》《商界評(píng)論》《銷售與市場(chǎng)》等近十家報(bào)刊、雜志特約評(píng)論員;

5 鈦媒體、36kr、虎嗅、界面、澎湃新聞等近80家專欄作者;

6 “腦藝人”(腦力手藝人)概念提出者,現(xiàn)演變?yōu)?ldquo;自媒體”,成為一個(gè)行業(yè);

7 騰訊全媒派榮譽(yù)導(dǎo)師、多家科技智能公司傳播顧問。

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)標(biāo)簽
百度文心

相關(guān)文章

熱門排行

信息推薦