1. 創(chuàng)業(yè)頭條
  2. 前沿領域
  3. 大數(shù)據(jù)
  4. 正文

行業(yè)高質(zhì)量AI數(shù)據(jù)如何煉成 揭秘云測數(shù)據(jù)的取勝之法

 2020-09-25 10:36  來源:A5專欄  我來投稿 撤稿糾錯

  域名預訂/競價,好“米”不錯過

文|葉遠風

來源|智能相對論(aixdlun)

AI加速落地的大背景下,作為人工智能產(chǎn)業(yè)落地重要的環(huán)節(jié),AI數(shù)據(jù)標注越來越受到業(yè)界的關(guān)注,并在發(fā)生著很大的變化。

不久前的服貿(mào)會上,數(shù)據(jù)標注領域的頭部企業(yè)云測數(shù)據(jù)首次對外發(fā)布了一項標準,其AI數(shù)據(jù)項目的最高交付精準度達到了99.99%,這是一個新的行業(yè)紀錄。對此,有自媒體“曾響鈴”評論認為,AI數(shù)據(jù)標注已經(jīng)由“勞動密集”進入“技能密集”時代。

在AI數(shù)據(jù)產(chǎn)業(yè)中,數(shù)據(jù)精準度=驗收合格數(shù)量/全部數(shù)量,這意味極高的精準度不僅要滿足一些客觀標準,還需要與AI項目方的需求深度契合,通過基于需求的驗收過程。

事實上,對AI數(shù)據(jù)標注這種與制造業(yè)在很多地方相似的產(chǎn)業(yè)而言,更高的精準度的打造過程,就如同制造業(yè)的“精益制造”一樣,在多個方面有著發(fā)展方式的契合,只不過一個交付數(shù)據(jù)服務,一個產(chǎn)出實體產(chǎn)品。

這種契合,從行業(yè)頭部企業(yè)的動作看,包括四個方面。

業(yè)務平臺:應對復雜的AI數(shù)據(jù)交接和作業(yè),出現(xiàn)線上自動化“流水線”

制造業(yè)的精益制造首先是“流水線”的自動化、智能化升級,引入更多精密的工具或機械,為產(chǎn)品的精益打磨提供了生產(chǎn)環(huán)境基礎。

數(shù)據(jù)標注也類似,粗放式的業(yè)務平臺越來越無法承接復雜的AI數(shù)據(jù)交接和作業(yè),在這種背景下,線上的自動化“流水線”開始出現(xiàn)。

以往,數(shù)據(jù)標注過程的“線下”痕跡濃厚,尤其是數(shù)據(jù)導入和導出,硬碟拷貝、交接的“原始模式”不時出現(xiàn)。

為了提升效率和安全,做到短時間無縫對接,以云測數(shù)據(jù)為代表的企業(yè)探索出線上“流水線”業(yè)務平臺化模式。具體來說,就是根據(jù)AI企業(yè)的自身數(shù)據(jù)處理流程,完成標準化API接口的流程嵌入,數(shù)據(jù)在線上接入,完成作業(yè)后從線上輸出,中間有模板化的任務創(chuàng)建與責任安排,支持不同標注類型和標注方法。

這個過程,對應到制造業(yè),其實就是“物料進入、找到眾多產(chǎn)線中合適的那一條并安排好生產(chǎn)工人、產(chǎn)品輸出”的過程。在線上,數(shù)據(jù)標注已經(jīng)做到了數(shù)據(jù)進入、標注、交付的云上無縫連接過程。

這其中,對數(shù)據(jù)標注“精益制造”價值最為明顯的可能是“生產(chǎn)工具”的優(yōu)化,工具能力的提升,大幅提升了數(shù)據(jù)標注的效率和精準度,這就好比流水線上功能豐富的自動化機械臂能夠幫助企業(yè)大大提升效率和質(zhì)量一樣。

以云測數(shù)據(jù)為代表的企業(yè)開發(fā)的工具為案例,目前來看,工具對數(shù)據(jù)標注的價值有這三個體現(xiàn):

一是直接的操作輔助,例如對人臉進行26點、54點、96點、206點的人臉關(guān)鍵點標注、貼合度在3像素以內(nèi)的特定任務關(guān)鍵點追蹤,這使得標注員的操作能夠更加精細化,且擁有不錯的效率。

二是特殊數(shù)據(jù)的操作輔助,例如自動駕駛中激光雷達形成的3D點云數(shù)據(jù)不同于攝像頭形成的2D圖像數(shù)據(jù),標注起來更有難度也更可能出現(xiàn)偏差,這時候,融合標注工具(把3D點云數(shù)據(jù)和2D圖像數(shù)據(jù)結(jié)合在一起對照)的價值就體現(xiàn)出來。

三是數(shù)據(jù)標注的糾錯保障,這類似于“精益制造”中人工質(zhì)檢前的機器自動質(zhì)檢,在數(shù)據(jù)標注過程中,工具根據(jù)AI項目需求設定查錯規(guī)則,保障標注的精準度(例如,一個三米高的物體標注為人體就錯了)

當然,工具質(zhì)檢只是一種輔助,在數(shù)據(jù)標注的“精益制造”過程中,人工質(zhì)檢(抽檢)同樣必不可少。云測數(shù)據(jù)不僅在標注流程上實現(xiàn)了正規(guī)化和科學化,設計了從創(chuàng)建任務、分配任務、標注流轉(zhuǎn),還完善了了從質(zhì)檢/抽檢環(huán)節(jié)到最后的驗收的管理流程。

數(shù)據(jù)作業(yè):應對AI落地的深度需求,出現(xiàn)“數(shù)據(jù)工藝”般的精細化作業(yè)

生產(chǎn)工藝是“精益制造”的核心之一,工藝越好,產(chǎn)品往往更為優(yōu)質(zhì),也更掌握市場的話語權(quán)。在“流水線”生產(chǎn)環(huán)境基礎上,隨著AI落地需求的加深,AI數(shù)據(jù)標注開始出現(xiàn)可以稱之為“數(shù)據(jù)工藝”的類似精細化作業(yè)過程,99.99%的精準度本身就是“數(shù)據(jù)工藝”的結(jié)果。

在云測數(shù)據(jù)的日常作業(yè)中,可以發(fā)現(xiàn)很多這種“數(shù)據(jù)工藝”般的做法,例如更豐富的數(shù)據(jù)標注類型,“線段”這種看起來簡單的標注對象也分出了折線、曲線、貝塞爾曲線等。

此外,如同制造業(yè)不斷積累工藝經(jīng)驗,逐步提升工藝水準生產(chǎn)出更高等級的產(chǎn)品一樣,數(shù)據(jù)標注也存在一個經(jīng)驗積累的過程來提升“數(shù)據(jù)工藝”水準,例如,工業(yè)中的大量看起來差不多的零件的標注,做到更細節(jié)層面才能區(qū)分出兩個型號類似的螺絲;零售行業(yè)大量相似的SKU,需要從品牌、標簽等多種細化角度來標注,幫助算法識別。

總的看來,對AI數(shù)據(jù)的復雜需求是促使數(shù)據(jù)標注朝著“數(shù)據(jù)工藝”方向發(fā)展的直接原因。

當下的AI數(shù)據(jù)呈現(xiàn)三個特征,一是由于AI產(chǎn)品落地場景的復雜性導致數(shù)據(jù)場景需求的多元化,如光線強度、拍攝角度、噪聲要求、室內(nèi)室外等;二是同類數(shù)據(jù)表現(xiàn)出樣本多樣性,僅就聲音的數(shù)據(jù),可能就包括年齡、性別、口音等差別;三是針對同一應用目標的數(shù)據(jù)多維化,例如智能駕駛就可能同時需要攝像頭、激光雷達、超聲波雷達等不同傳感器產(chǎn)生的數(shù)據(jù)。

很顯然,在這種背景下,AI發(fā)展初期那種直接應用或者購買成品“數(shù)據(jù)集”的做法行不通了,它們可以幫助算法快速成型,但卻難以支撐更多樣化的AI落地需求。

于是,“數(shù)據(jù)工藝”般的精細化作業(yè)對數(shù)據(jù)標注的需求自然而然就超出了單純數(shù)據(jù)標注的業(yè)務范疇,必然要整合上游數(shù)據(jù)采集這個關(guān)鍵環(huán)節(jié)。 可以看到,以云測數(shù)據(jù)為代表的企業(yè)都在大力提升場景化數(shù)據(jù)采集的能力。幫助客戶還原落地場景所需要的AI數(shù)據(jù),從源頭保證AI數(shù)據(jù)的質(zhì)量,才能更好的應用于AI產(chǎn)業(yè)化的深度落地。

或許正因為這樣的原因,可以看到,云測數(shù)據(jù)在發(fā)布了最高項目交付99.99%精準度的同時,為了貼合實際場景、幫助更多行業(yè)實現(xiàn)“AI產(chǎn)品更快更好的落地”, 云測數(shù)據(jù)結(jié)合自身的服務能力積累和行業(yè)專業(yè)性,還推出了智慧城市、智能家居、智能駕駛、智慧金融四個場景下的“AI訓練數(shù)據(jù)服務解決方案”。

在這些整合了數(shù)據(jù)采集與標注的場景AI數(shù)據(jù)解決方案中,可以發(fā)現(xiàn)更明顯的“數(shù)據(jù)工藝”痕跡。

例如,在戶外場景中,攝像頭囊括了大量的行人、機動車、自行車等道路場景數(shù)據(jù),但智慧城市的AI應用可能需要識別人流檢測、突發(fā)事件等長尾場景數(shù)據(jù)。

在云測數(shù)據(jù)的智慧城市解決方案中,就通過行業(yè)首創(chuàng)的數(shù)據(jù)場景實驗室來還原搭建真實場景,用于采集長尾場景數(shù)據(jù),例如多種不同光線下的人員檢測、危險動作檢測等。

類似的還有智能駕駛場景。智能駕駛的車外環(huán)境感知需要大量真實場景數(shù)據(jù)用于算法訓練,為了確保行駛安全,需要覆蓋非常多的長尾場景數(shù)據(jù),例如舉傘的行人、突然出現(xiàn)的寵物等,疫情發(fā)生后,帶口罩的行人也是另一種車外環(huán)境感知所需要的“場景AI數(shù)據(jù)”。

從細節(jié)上滿足更復雜深度的AI數(shù)據(jù)需求,提供獨特的、無法替代的AI數(shù)據(jù)獲取能力,將幫助數(shù)據(jù)標注持續(xù)獲得更高的產(chǎn)業(yè)地位。

人力建設:應對高精細化的“數(shù)據(jù)工藝”,出現(xiàn)專業(yè)的“人工智能訓練師”

“流水線”的生產(chǎn)基礎加上更高的生產(chǎn)工藝之后,“精益制造”考驗的還有產(chǎn)業(yè)工人是否能將工藝實現(xiàn)的能力,在產(chǎn)業(yè)升級的浪潮下,產(chǎn)業(yè)工人的素質(zhì)成為“精益制造”的關(guān)鍵因素之一。

映射到數(shù)據(jù)標注,為了應對高精細化的“數(shù)據(jù)工藝”,專業(yè)的“人工智能訓練師”開始出現(xiàn),這表現(xiàn)在三個方面。

一是體系化的人才培訓,整體技能專業(yè)性、領域知識專業(yè)性、人員素養(yǎng)等都在提升。

以云測數(shù)據(jù)為例,云測數(shù)據(jù)不僅提供崗前培訓,還帶有員工技能培訓、職能培訓、行業(yè)領域知識、責任培訓、標注內(nèi)容的培訓,以及一對一的持續(xù)交流來提升員工的能力;與此同時,配備在線化、體系化的打分系統(tǒng)來評估員工的能力。

過去,數(shù)據(jù)標注那種隨便在街上、學校里拉一些人,只要認得圖片、懂基本的語法拼寫就開始干活的做法,已經(jīng)不再具備任何競爭力了。

二是匹配不同需求的“人才梯隊”開始出現(xiàn)。

這一點,如同“精益制造”里更復雜產(chǎn)品配以技藝手段更高的工人一樣,在數(shù)據(jù)標注領域,出現(xiàn)了一些數(shù)據(jù)需求上的分化,倒逼企業(yè)培養(yǎng)某種意義上的“人才梯隊”。

典型的如醫(yī)療、法律、金融、家居等高度專業(yè)化的領域中,不論是CV還是NLP,人工智能訓練師需要非常專業(yè),才能進行正確的數(shù)據(jù)標注與解讀,這甚至不是光有培訓就能解決的。云測數(shù)據(jù)在NLP領域就吸納了一些金融及家居行業(yè)的專才來提升對應領域的數(shù)據(jù)標注能力,這也意味著數(shù)據(jù)標注產(chǎn)業(yè)開始對人才來源口徑有了一些要求,不再是泛化的人群。

三是大量的操作細節(jié)和專業(yè)性不斷疊加。

產(chǎn)業(yè)工人變成“老師傅”,一方面來源于苛刻的工作要求,另一方面來自不斷的專業(yè)經(jīng)驗積累。在數(shù)據(jù)標注這里也是如此。

粗放式管理下,傳統(tǒng)數(shù)據(jù)標注行業(yè)有一種“混亂”的旗氣質(zhì),草臺班子稀里糊涂完成了大量的數(shù)據(jù)標注工作。但現(xiàn)在,高精準度的大旗下,數(shù)據(jù)服務團隊的專業(yè)化能力被嚴格要求,在云測數(shù)據(jù),智能客服單個場景的意圖標注就分為10-20個大類、上百個子類(表達同一個意圖,算法面臨的用戶可能有不同的表達方式,故越細分越好),根據(jù)業(yè)務需求可能還會有進一步的標注細分。

這倒逼數(shù)據(jù)標注員提升對話意圖的判斷能力,需要對句子進行泛化、以不同的描述方式重組或擴充句式、標簽(比如,用戶只是單純口誤了,或者夾雜了方言,數(shù)據(jù)都需要標注清晰,供AI算法去學習)。

在整體素質(zhì)不斷提升的基礎上,人工智能訓練師呈現(xiàn)出更多樣化的梯度,更多優(yōu)質(zhì)的標注人才將脫穎而出。

需求交互:應對縱深的項目需求,出現(xiàn)深度交互的專業(yè)化服務模式

最后,“精益制造”階段的制造業(yè),往往伴隨訂單方與生產(chǎn)方的深度溝通,需求方深度介入生產(chǎn)制造,才能生產(chǎn)出更符合初衷的產(chǎn)品。

這其實是支撐“精益制造”的專業(yè)化服務模式,在數(shù)據(jù)標注領域也是如此。為了明確AI數(shù)據(jù)標準,云測數(shù)據(jù)這種追求高精準度的企業(yè)早已要求項目經(jīng)理與AI項目方在項目開展前反復溝通需求,配合行業(yè)培訓師對標注員們進行前期培訓,并在標注作業(yè)過程中保持實時的溝通和反饋。

這種反復溝通中,涉及到大量影響最終數(shù)據(jù)結(jié)果精準度的細節(jié),例如,CV項目中,什么樣的光線要標注和定義為“強光線”?不同需求方的理解可能并不一樣。

除了明確數(shù)據(jù)標準的溝通,在作業(yè)方式上,數(shù)據(jù)標注現(xiàn)在也更為靈活。

典型的是金融場景中,由于行業(yè)的特殊性,尤其是對數(shù)據(jù)安全的極高要求,數(shù)據(jù)標注企業(yè)除了要提供了一套針對金融行業(yè)深度結(jié)合企業(yè)自身業(yè)務流程的AI數(shù)據(jù)服務方案,一些時候還必須改變部署與作業(yè)的物理方式,例如云測數(shù)據(jù)提供的私有化部署和駐場作業(yè)服務,在這種服務方式下,數(shù)據(jù)標注“企業(yè)服務”的本質(zhì)也更明顯了一些。

值得強調(diào)的是,在數(shù)據(jù)隱私安全方面,云測數(shù)據(jù)設置了一系列嚴格措施。其中一條核心原則就是數(shù)據(jù)絕不復用,當數(shù)據(jù)合格交付后從不留底,會清毀相關(guān)數(shù)據(jù);其二,所有和云測數(shù)據(jù)進行數(shù)據(jù)采集的用戶都會簽訂數(shù)據(jù)授權(quán)協(xié)議,從來源上確保企業(yè)用于訓練的數(shù)據(jù)合法合規(guī);同時,云測數(shù)據(jù)內(nèi)部還設定了數(shù)據(jù)隔離、質(zhì)量保障等一系列數(shù)據(jù)安全流程和技術(shù)。

總而言之,AI加速落地催生出更為復雜的AI數(shù)據(jù)需求,使得本來與制造業(yè)在過程上有些類似的AI數(shù)據(jù)標注也走入屬于產(chǎn)業(yè)自身的“精益制造”過程,在生產(chǎn)環(huán)境、作業(yè)標準、人才建設以及服務模式上都有了很大的轉(zhuǎn)變。而云測數(shù)據(jù)帶來的這種轉(zhuǎn)變,不只是帶來了更高的精準度、更高質(zhì)量的AI數(shù)據(jù),也使得數(shù)據(jù)標注產(chǎn)業(yè)在AI時代的產(chǎn)業(yè)鏈條中作用愈加突出。數(shù)據(jù)標注就像是信息世界的新基建,只有基石的建設穩(wěn)妥了,AI產(chǎn)業(yè)的高樓才能拔地而起,才能加速人工智能更好的到來。

此內(nèi)容為【智能相對論】原創(chuàng),

僅代表個人觀點,未經(jīng)授權(quán),任何人不得以任何方式使用,包括轉(zhuǎn)載、摘編、復制或建立鏡像。

部分圖片來自網(wǎng)絡,且未核實版權(quán)歸屬,不作為商業(yè)用途,如有侵犯,請作者與我們聯(lián)系。

智能相對論(微信ID:aixdlun):

•AI產(chǎn)業(yè)新媒體;

•今日頭條青云計劃獲獎者TOP10;

•澎湃新聞科技榜單月度top5;

•文章長期“霸占”鈦媒體熱門文章排行榜TOP10;

•著有《人工智能 十萬個為什么》

•【重點關(guān)注領域】智能家電(含白電、黑電、智能手機、無人機等AIoT設備)、智能駕駛、AI+醫(yī)療、機器人、物聯(lián)網(wǎng)、AI+金融、AI+教育、AR/VR、云計算、開發(fā)者以及背后的芯片、算法等。

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關(guān)標簽
大數(shù)據(jù)
ai技術(shù)

相關(guān)文章

  • 匯聚中國AI頂尖力量 云天勵飛參與華為AI大模型聯(lián)合創(chuàng)新

    2023年7月6日,第六屆世界人工智能大會(WAIC2023)在上海開幕,“人工智能大模型”是本屆大會的備受矚目的話題,據(jù)悉,在昇騰AI大模型的創(chuàng)新研發(fā)中,華為聯(lián)手26家行業(yè)領軍企業(yè),組建了一支協(xié)同創(chuàng)新的“AI明星隊”,云天勵飛作為中國人工智能企業(yè)的杰出代表,和互聯(lián)網(wǎng)大廠、運營商、科研院所等優(yōu)秀團隊

    標簽:
    ai技術(shù)
  • 用友大易:邁入AI招聘2.0時代,讓人力資源回歸本質(zhì)

    這幾個月來,以ChatGPT為代表的生成式AI展現(xiàn)出的能力令世界驚嘆。自從2016年AlphaGo戰(zhàn)勝李世石掀起了一波AI浪潮后,AI仿佛已經(jīng)沉寂了很久,ChatGPT的橫空出世就如同一束耀眼的光芒,讓AI這個名詞重回C位。過去在AI1.0時代,主要通過訓練模型來實現(xiàn)圖像識別、聲音識別、語言處理等特

    標簽:
    ai技術(shù)
  • 新發(fā)布的PaaS2.0,能否助力涂鴉智能再起飛?

    文:互聯(lián)網(wǎng)江湖作者:志剛2023年的IoT需要一個新故事。6月29日,涂鴉智能在開發(fā)者大會上,發(fā)布了企業(yè)級戰(zhàn)略PaaS2.0,希望通過一個平臺+四大開發(fā)服務,建立起IoT生態(tài)。對于這場發(fā)布會,市場的態(tài)度是積極的。美東時間6月29日收盤,涂鴉智能美股股價上漲5.6%,來到1.87美元/股。近日股價穩(wěn)定

    標簽:
    ai技術(shù)
  • 大模型難掩AI制藥的悲傷:越過山丘,無人等候

    美團曾經(jīng)的二號人物王慧文對標OpenAI的創(chuàng)業(yè)項目光年之外,以20億賣給美團,再度引發(fā)市場對大模型的熱議。

    標簽:
    ai技術(shù)
  • 拾起王慧文的AI夢,美團沖向“光年之外”?

    2020年底,王慧文在朋友圈寫下這句話時,外界本以為這位伴隨中國互聯(lián)網(wǎng)發(fā)展而持續(xù)創(chuàng)業(yè)20年的人物即將告別創(chuàng)業(yè)舞臺。但是,一個曾經(jīng)多次創(chuàng)業(yè),正值壯年的互聯(lián)網(wǎng)老將心中的創(chuàng)業(yè)熱情是難以熄滅的。

    標簽:
    ai技術(shù)