1. 創(chuàng)業(yè)頭條
  2. 前沿領(lǐng)域
  3. 人工智能
  4. 正文

開發(fā)框架與基礎(chǔ)硬件攜手,AI的社會價值在文化領(lǐng)域深度彰顯

 2023-01-13 13:14  來源:A5專欄  我來投稿 撤稿糾錯

  域名預(yù)訂/競價,好“米”不錯過

語言是人類進行溝通交流的表達方式,其儲存著豐富的文化信息,傳承著民族血脈,也支撐著文明的發(fā)展與演進。然而,一些少數(shù)民族語言、方言卻正在無聲無息地消失,與之密切相連的地域文化、歷史文化也正面臨瀕危風(fēng)險。

“大約平均兩周就會有一種語言消亡“,聯(lián)合國教科文組織的這一調(diào)查數(shù)據(jù)讓人觸目驚心,且世界上正在使用的約6,000種語言,至少有43%面臨瀕危[1]。而在中國,也有25種語言使用人口已不足千人[2]。

搶救瀕危少數(shù)民族語言對保持漢語的豐富性、多元性,保護文化記憶、文化基因意義重大。因此,中國早在2015年就啟動了語言資源保護工程,借助田野調(diào)查,建立起龐大的口語語料庫,保存了原始聲音文件和國際音標(biāo)標(biāo)注等豐富素材。

[1] 如欲了解更多詳情請訪問:https://www.un.org/zh/observances/mother-language-day%20

[2]如欲了解更多詳情請訪問:https://epaper.gmw.cn/zhdsb/html/2022-01/19/nw.D110000zhdsb_20220119_1-06.htm

然而,僅僅依靠這些單語數(shù)據(jù),研究者難以獲知其背后所傳達的語義,無法有效開展相關(guān)學(xué)習(xí)與研究,更罔論留存這些少數(shù)民族瀕危語言與背后地方文化的生命力。

人工智能技術(shù)為復(fù)活這些語言,挖掘多元文化價值,傳承璀璨的歷史文化,提供了新思路和新手段。2022年國際母語日也將“利用技術(shù)促進多語言學(xué)習(xí):挑戰(zhàn)與機遇”作為主題,指出了技術(shù)對推進多語言教育以及文化傳承與保護的作用。

百度飛槳深度學(xué)習(xí)平臺攜手英特爾,基于第三代英特爾® 至強® 可擴展處理器進行深度優(yōu)化,通過完善的模型壓縮方法和量化加速技術(shù),支持全自動生成大規(guī)模“漢語-少數(shù)民族語言”雙向詞典,對用技術(shù)幫助保護瀕危少數(shù)民族語言,推動民族互通互融,做出了積極探索,展現(xiàn)了“科技向善”的現(xiàn)實意義和歷史價值。

采用百度飛槳深度學(xué)習(xí)平臺,全自動構(gòu)建大規(guī)模雙向詞典

構(gòu)建雙向詞典項目,采用了規(guī)模大、范圍廣、語種多、內(nèi)容豐富的瀕危語言博物館館藏源語料庫,語料全部來自于田野調(diào)查與實地采集。

通過分析,項目研發(fā)人員選取了中國少數(shù)民族語言中的獨龍、爾蘇、嘉絨、撒拉這四種數(shù)據(jù)較為豐富的語言作為實驗對象。

為基于百度飛槳實現(xiàn)對齊算法,項目團隊首先開發(fā)了民間故事漢語數(shù)據(jù)集。開發(fā)過程中,充分利用飛槳PaddleOCR開發(fā)套件識別精度高、推理速度快等特性,對跨度8年的《故事會》雜志掃描樣本進行數(shù)據(jù)化處理,構(gòu)建出規(guī)模達950萬字的文本數(shù)據(jù)集,也是全球首個民間故事漢語數(shù)據(jù)庫,且具有很強的口語化風(fēng)格,適合與少數(shù)民族語言語料進行對齊。

然后,實施低資源詞向量訓(xùn)練,應(yīng)對四個少數(shù)民族語料句子數(shù)量普遍不足五千條的挑戰(zhàn),以及《故事會》語料小于二十萬條句子的問題,為下游的雙語對齊提供了強有力的支持。

繼之,依據(jù)拓?fù)涮卣?,對兩種語言的詞向量進行旋轉(zhuǎn)和對齊,實施雙語詞典自動化抽取,最終導(dǎo)出了獨龍、爾蘇、嘉絨、撒拉這四種語言和漢語的雙向詞典。

目前,這四部雙向詞典已在中國社科院民族學(xué)和人類學(xué)研究所志愿者的協(xié)助下,進行了內(nèi)部評測,僅發(fā)現(xiàn)含有少量誤差。這一可喜成果,驗證了基于百度飛槳深度學(xué)習(xí)平臺,智能生成大規(guī)模漢語-少數(shù)民族語言詞典的可行性和便捷性,展現(xiàn)了人工智能對于應(yīng)對語言瀕危日益嚴(yán)峻挑戰(zhàn)的高效性和高價值。

英特爾與百度飛槳軟硬協(xié)同優(yōu)化,用智能探索文化保護新路

雙向詞典項目依托飛槳深度學(xué)習(xí)技術(shù),高效實現(xiàn)了瀕危語言詞典的自動化生成,極大減輕了語保工作者的負(fù)擔(dān)。而其背后是英特爾所提供的英特爾® 至強® 可擴展平臺具備的強勁算力和多種優(yōu)化措施,為飛槳平臺高效支撐項目運作提供了基礎(chǔ)能力和量化加速。

業(yè)界盡知,人工智能應(yīng)用不僅需要高算力作為支撐,而且源于大多數(shù)深度學(xué)習(xí)模型使用32位浮點精度(FP32)構(gòu)建,復(fù)雜度高,模型參數(shù)量大,限制了其在一些場景和設(shè)備進行部署,需要實施軟硬結(jié)合優(yōu)化,才能突破性能瓶頸,高效承載諸如上文雙向詞典生成等多類應(yīng)用。

針對上述問題,英特爾攜手百度飛槳,基于第三代英特爾® 至強® 可擴展處理器、英特爾® oneAPI工具套件等軟硬件組合,在為飛槳平臺提供充裕算力的同時,也對整個深度學(xué)習(xí)流程實施全方位優(yōu)化,幫助加速各類應(yīng)用開發(fā)和量化部署。

第三代英特爾® 至強® 可擴展處理器依托出色的微架構(gòu),發(fā)揮多核心、多線程和大容量高速緩存等特性,很好地滿足了飛槳平臺對通用算力的苛刻需求,同時加持以其內(nèi)置的英特爾® AVX-512提供的增強矢量處理能力,提升AI 推理和訓(xùn)練效率,為圖像分類、自然語言處理、語音識別、語音翻譯等廣泛的應(yīng)用開發(fā)和部署提供穩(wěn)健基石。而最新一代的第四代英特爾® 至強® 可擴展處理器更內(nèi)置一系列加速器,包括全新的AI加速器——英特爾®高級矩陣擴展(英特爾®AMX),覆蓋包括訓(xùn)練和微調(diào)在內(nèi)的更多深度學(xué)習(xí)使用場景,可以為不斷變化且要求日益增高的應(yīng)用提供更為可觀的計算性能。

為滿足模型快速“瘦身”之需,百度飛槳打造了PaddleSlim深度學(xué)習(xí)模型壓縮工具庫,以及為用戶提供靈活的壓縮策略,而英特爾® 至強® 可擴展處理器內(nèi)置的AI加速技術(shù)--英特爾® 深度學(xué)習(xí)加速(英特爾® DL Boost),可通過矢量神經(jīng)網(wǎng)絡(luò)指令(VNNI)充分提高計算資源和緩存的利用率,減少潛在的帶寬瓶頸,為INT8等低精度計算提供優(yōu)化支持,顯著加速AI 推理。由此,幫助飛槳PaddleSlim所支持的量化訓(xùn)練和靜態(tài)離線量化方法,更好地適用于計算機視覺(CV)和自然語言處理 (NLP)等模型優(yōu)化過程,這無疑也為雙向詞典AI方案的開發(fā)提供了便利,同時提高了項目運作效率。

同時為激活 VNNI 加速功能,百度飛槳深度學(xué)習(xí)平臺在量化方案實施中還廣泛使用英特爾® oneAPI 工具套件,如英特爾® oneAPI 深度神經(jīng)網(wǎng)絡(luò)庫 (Intel® oneAPI Deep Neural Network Library,英特爾® oneDNN)。借助其統(tǒng)一、簡化的編程模型,飛槳用戶得以在CPU、GPU和FPGA等不同的架構(gòu)上方便地調(diào)用通用接口來使用平臺內(nèi)置的AI加速技術(shù),而無需擔(dān)心平臺兼容問題。

得益于英特爾® 至強® 可擴展平臺與多項優(yōu)化工具的支持,百度飛槳深度學(xué)習(xí)平臺實現(xiàn)了深度優(yōu)化,并不斷豐富模型資源及應(yīng)用開發(fā)套件,為用戶提供了優(yōu)異的模型及硬件加速體驗。而雙向詞典項目在推動少數(shù)民族語言保護領(lǐng)域展現(xiàn)的神奇魔力,就是其典型案例。

“十四五”規(guī)劃把“強化重要文化和自然遺產(chǎn)、非物質(zhì)文化遺產(chǎn)系統(tǒng)性保護、推動中華優(yōu)秀傳統(tǒng)文化創(chuàng)造性轉(zhuǎn)化、創(chuàng)新性發(fā)展”,作為提高社會文明程度的重要舉措;今年的工作報告也強調(diào)了“傳承中華優(yōu)秀傳統(tǒng)文化,滿足人民日益增長的精神文化需求”,對鑄就文化新輝煌的重要作用。

英特爾攜手百度飛槳踐行“科技向善”,優(yōu)化開源平臺,促進瀕危語言保護,不僅延續(xù)和發(fā)揚了語言背后蘊含的文化、知識遺產(chǎn)及其價值,更探索出智能技術(shù)賦能的新路;也是英特爾繼用人工智能助力長城修繕,通過計算、存儲、網(wǎng)絡(luò)全棧優(yōu)化解決方案幫助云岡石窟文物保護等,持續(xù)展現(xiàn)創(chuàng)新技術(shù)對挖掘與傳承璀璨歷史文化、實現(xiàn)創(chuàng)新創(chuàng)造的新動能的又一成功實踐,有助于在讓歷史智慧照進未來,讓寶貴文化遺產(chǎn)豐富人們精神世界的同時,進一步加速人工智能的拓展應(yīng)用,助力擁抱數(shù)字化浪潮,創(chuàng)造更美好的生活。

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關(guān)標(biāo)簽
ai技術(shù)

相關(guān)文章

  • 匯聚中國AI頂尖力量 云天勵飛參與華為AI大模型聯(lián)合創(chuàng)新

    2023年7月6日,第六屆世界人工智能大會(WAIC2023)在上海開幕,“人工智能大模型”是本屆大會的備受矚目的話題,據(jù)悉,在昇騰AI大模型的創(chuàng)新研發(fā)中,華為聯(lián)手26家行業(yè)領(lǐng)軍企業(yè),組建了一支協(xié)同創(chuàng)新的“AI明星隊”,云天勵飛作為中國人工智能企業(yè)的杰出代表,和互聯(lián)網(wǎng)大廠、運營商、科研院所等優(yōu)秀團隊

    標(biāo)簽:
    ai技術(shù)
  • 用友大易:邁入AI招聘2.0時代,讓人力資源回歸本質(zhì)

    這幾個月來,以ChatGPT為代表的生成式AI展現(xiàn)出的能力令世界驚嘆。自從2016年AlphaGo戰(zhàn)勝李世石掀起了一波AI浪潮后,AI仿佛已經(jīng)沉寂了很久,ChatGPT的橫空出世就如同一束耀眼的光芒,讓AI這個名詞重回C位。過去在AI1.0時代,主要通過訓(xùn)練模型來實現(xiàn)圖像識別、聲音識別、語言處理等特

    標(biāo)簽:
    ai技術(shù)
  • 新發(fā)布的PaaS2.0,能否助力涂鴉智能再起飛?

    文:互聯(lián)網(wǎng)江湖作者:志剛2023年的IoT需要一個新故事。6月29日,涂鴉智能在開發(fā)者大會上,發(fā)布了企業(yè)級戰(zhàn)略PaaS2.0,希望通過一個平臺+四大開發(fā)服務(wù),建立起IoT生態(tài)。對于這場發(fā)布會,市場的態(tài)度是積極的。美東時間6月29日收盤,涂鴉智能美股股價上漲5.6%,來到1.87美元/股。近日股價穩(wěn)定

    標(biāo)簽:
    ai技術(shù)
  • 大模型難掩AI制藥的悲傷:越過山丘,無人等候

    美團曾經(jīng)的二號人物王慧文對標(biāo)OpenAI的創(chuàng)業(yè)項目光年之外,以20億賣給美團,再度引發(fā)市場對大模型的熱議。

    標(biāo)簽:
    ai技術(shù)
  • 拾起王慧文的AI夢,美團沖向“光年之外”?

    2020年底,王慧文在朋友圈寫下這句話時,外界本以為這位伴隨中國互聯(lián)網(wǎng)發(fā)展而持續(xù)創(chuàng)業(yè)20年的人物即將告別創(chuàng)業(yè)舞臺。但是,一個曾經(jīng)多次創(chuàng)業(yè),正值壯年的互聯(lián)網(wǎng)老將心中的創(chuàng)業(yè)熱情是難以熄滅的。

    標(biāo)簽:
    ai技術(shù)
  • “創(chuàng)造市場”與“算法進化”,中美AI競速的岔路口

    “人工智能的商業(yè)模式,是要創(chuàng)造一個市場,而非一個算法”。這是世界AI泰斗MichaelI.Jordan的觀點。而當(dāng)前的全球AI市場,占據(jù)主導(dǎo)地位的中美雙方,卻也走出了兩條截然不同的技術(shù)路徑,前者執(zhí)著于前沿技術(shù)的探索,后者則發(fā)力應(yīng)用優(yōu)化和商業(yè)化落地。南轅北轍的兩個方向,或許已經(jīng)無法直接進行排位先后、優(yōu)

    標(biāo)簽:
    ai智能
  • 智能體進化發(fā)展了一年,現(xiàn)在的RPA Agent迭代到什么程度了?

    智能體進化發(fā)展了一年,現(xiàn)在的RPAAgent迭代到什么程度了?從實在智能最新發(fā)布的實在Agent7.0,看RPAAgent的迭代升級抓取豆瓣信息、自己制作PPT,這款A(yù)IAgent真的實現(xiàn)了流程全自動化AIAgent構(gòu)建到執(zhí)行全自動化,持續(xù)進化RPAAgent再次降低智能體應(yīng)用門檻實在智能重磅發(fā)布實

  • 崔大寶:大模型降溫背后的難點、卡點、節(jié)點

    崔大寶|節(jié)點財經(jīng)創(chuàng)始人進入2024年,大模型似乎有熄火之勢:資本市場,與之關(guān)聯(lián)的概念炒不動了,英偉達股價動輒暴跌重挫,引發(fā)“泡沫戳破”的擔(dān)憂;消費市場,BATH們的推新活動少了,產(chǎn)品更新迭代的速度慢了,民眾的關(guān)注度降了……熱鬧的大概只剩下兩場酣仗:自5月15日字節(jié)跳動宣布“以厘計費”,打響國內(nèi)大模型

    標(biāo)簽:
    大模型
  • 這一屆“出道”的數(shù)字人,已經(jīng)拿捧上了“鐵飯碗”

    文|智能相對論作者|陳泊丞好消息!你心心念念的事業(yè)單位發(fā)錄取公告了!壞消息!他們沒錄你,錄了個數(shù)字人。圖片來源網(wǎng)絡(luò)隨著數(shù)字人技術(shù)的突破,越來越多的傳統(tǒng)企業(yè)和機構(gòu)開始用上了“數(shù)字員工”。甚至很多中國人心心念念的“鐵飯碗”,也被這些數(shù)字人給捧上了。數(shù)字人捧上了“鐵飯碗”簡單翻看一下全國各地事業(yè)單位的“錄

    標(biāo)簽:
    數(shù)字人
  • 來到IPO關(guān)口,地平線離“三分天下”還有多遠(yuǎn)?

    黑芝麻智能敲鐘后,港交所門口又有一些智駕芯片企業(yè)引發(fā)關(guān)注。據(jù)悉,近日地平線已通過中國證監(jiān)會IPO備案,擬發(fā)行不超過11.5億股境外上市普通股并在香港聯(lián)合交易所上市,預(yù)計籌集約5億美元資金。從天眼查可以了解到,該公司成立于2015年,是一家乘用車高級輔助駕駛(ADAS)和高階自動駕駛(AD)解決方案供

  • 機器人大會引領(lǐng)產(chǎn)業(yè)動向,卓翼飛思繪制無人系統(tǒng)教科研新藍(lán)圖

    8月21日,萬眾矚目的2024世界機器人大會暨博覽會在北京亦創(chuàng)國際會展中心盛大開幕。這場為期5天,集“展覽”“論壇”“賽事”于一體的機器人盛會,反映了當(dāng)下機器人領(lǐng)域的繁榮生態(tài)。據(jù)官方統(tǒng)計數(shù)據(jù),今年現(xiàn)場逛展觀眾高達25萬人次,比去年增加25%。機器人行業(yè)有多火?看看2024世界機器人大會火爆程度便可知

  • 卓翼智能:超大載重高烈度環(huán)境特種智能系留無人平臺的應(yīng)用與未來

    瞄準(zhǔn)場景需求,打造國內(nèi)領(lǐng)先的自主可控、高質(zhì)量超大載重高烈度環(huán)境特種智能系留無人平臺。卓翼智能亮相HICOOL峰會以科技實力榮摘創(chuàng)業(yè)大賽一等獎這個比賽5年培育出16家“獨角獸”HICOOL2024全球創(chuàng)業(yè)者峰會暨創(chuàng)業(yè)大賽已于8月25日在北京圓滿落下帷幕,大賽共吸引了124個國家和地區(qū)的7406個創(chuàng)業(yè)項

  • 60萬獎金召喚AI創(chuàng)新者,2024無錫國際人工智能創(chuàng)新應(yīng)用大賽火熱進行中!

    人工智能是新一輪科技革命和產(chǎn)業(yè)變革的重要驅(qū)動力量。無錫市作為中國的科技創(chuàng)新中心之一,正通過構(gòu)建人工智能"算力+算法+數(shù)據(jù)"三要素齊備的產(chǎn)業(yè)生態(tài),為產(chǎn)業(yè)技術(shù)創(chuàng)新應(yīng)用提供強大支撐,通過“AI+”行動推動人工智能與多個產(chǎn)業(yè)交叉融合,實現(xiàn)技術(shù)落地和產(chǎn)業(yè)化,加速形成新質(zhì)生產(chǎn)力,打造具有國際競爭力的產(chǎn)業(yè)創(chuàng)新智造

  • “云+AI”驅(qū)動操作系統(tǒng)創(chuàng)新升級,龍蜥堅持可持續(xù)發(fā)展路線

    近日,2024龍蜥操作系統(tǒng)大會(OpenAnolisConference)在北京圓滿召開,此次大會由中國計算機學(xué)會開源發(fā)展委員會、中關(guān)村科學(xué)城委員會、海淀區(qū)委網(wǎng)信辦、中國開源軟件推進聯(lián)盟指導(dǎo),龍蜥社區(qū)主辦,阿里云、浪潮信息、Intel、中興通訊、Arm、中科方德等24家理事單位共同承辦,主題為“進化

編輯推薦