文 | 魏啟揚
來源 | 智能相對論
2020年的春節(jié)假期因為新冠疫情給所有人來了個措手不及,大量“云”服務(wù)被激活,作為在線溝通工具的輸入法首當其沖,成為特殊時期接受考驗的中堅力量之一,特別是語音輸入能力,更是成為用戶評價輸入法是否好用的重要維度。
近日,百度輸入法公布,自1月25日春節(jié)假期以來,百度輸入法日均語音請求量突破10億次大關(guān),再創(chuàng)行業(yè)歷史新高。
在很多人看來,這只不過一個數(shù)字而已,但很多年后,我們再來回首,日均10億次的語音請求量或?qū)⒊蔀橥苿虞斎敕ㄐ螒B(tài)和操作方式變革的一個標志。
一、10億次,必然是高流量和高標準的雙重滿足
回到百度輸入法日均語音請求突破10億次事件本身,我們需要回答兩個問題,為什么會產(chǎn)生如此高的數(shù)據(jù)流量?完成這樣的任務(wù)又需要具備哪些素質(zhì)?
第一個問題很好回答,上文提到特殊時期各種“云”服務(wù)被激活,線上溝通需求呈指數(shù)級增加,輸入法的使用頻率由此被抬升,此時比傳統(tǒng)鍵盤打字更快,還不用動手,更不用學(xué)習(xí)拼音、五筆這類輸入規(guī)則的語音輸入表現(xiàn)出非常大的優(yōu)勢,輸入法語音請求量刷新歷史記錄也就不足為奇了。
只是在創(chuàng)造語音請求新紀錄之前,輸入法需要解決自己的流量承受能力,畢竟日均10億次的請求流量不是一個小數(shù)字,好在經(jīng)受過“春晚紅包”考驗的百度是見過“世面”的,甚至還有很大余地接下更大的流量壓力。
第二個問題的核心關(guān)鍵在于輸入法不但要能用、好用還需要用戶喜歡用。
首先,在技術(shù)層面,準確率是無法繞開的基礎(chǔ)門檻。
作為一種輸入方式,讓用戶愿意使用,首要滿足條件是準確率,即精準理解用戶的意圖并將其表達出來。
鍵盤打字輸入能夠成為主流輸入方式,很大原因在于用戶的一字一句被完全復(fù)刻,輸入結(jié)果精準且高效。
相比之下,語音輸入需要經(jīng)過機器“識別”到“翻譯”再到呈現(xiàn)的過程,輸入鏈條被拉長,如果技術(shù)不夠完善,不但不能完成實時語音交互任務(wù),而且只要其中任何一個環(huán)節(jié)出現(xiàn)問題,都會影響到最終的輸入結(jié)果,準確度難以保證。
百度去年發(fā)布的流式截斷多層注意力建模(SMLTA),則實現(xiàn)了中文在線語音識別的兩大突破:世界上首次實現(xiàn)了局部注意力建模識別精度超過全局注意力模型;世界上第一次大規(guī)模部署在線語音交互注意力模型。
也正是憑借著這一技術(shù),百度解決了傳統(tǒng)Attention模型在識別中的時延性,以及因此導(dǎo)致的無法進行大規(guī)模在線語音實時交互的問題,將百度輸入法在線語音識別精度提升了15%,超越行業(yè)最高水平15%。同時在離線語音識別方面,即使用戶處于地鐵、電梯、隧道或者人流密集等離線場景中,百度輸入法依然可以提供準確率超過98%的語音輸入服務(wù)。
其次,在用戶層面,“懂你”比“給你”更重要。
準確率是滿足用戶需求的基礎(chǔ)門檻,但這也只是解決了“能用”的問題,要想讓用戶愛用,并形成使用習(xí)慣,那就要求輸入法要“懂”用戶。
如何理解?
說話時口語化怎么辦?說話習(xí)慣中英夾雜怎么辦?說話有方言口音又怎么辦?這些情況下,輸入法都能識別清楚嗎?
很明顯這類說話習(xí)慣一旦養(yǎng)成,在短時間內(nèi)既難糾正,更難改變,特別是一些年長用戶,讓他們改變幾十年來形成的口音,基本是一個不能完成任務(wù),這時就要求輸入法不能只是被動的向用戶提供自己的輸入能力,而要主動“遷就”用戶,“聽懂”用戶的意圖。
百度輸入法的“方言自由說”和“中英自由說”兩大功能就是這一產(chǎn)品設(shè)計思維下的產(chǎn)物。
前者是通過技術(shù)優(yōu)化,將普通話和六大方言融合成了一個語音識別模型,實現(xiàn)方言與方言、方言與普通話的混合語音輸入,這也使百度輸入法成為首個實現(xiàn)方言免切換語音輸入的輸入法產(chǎn)品。
后者可以在完全不影響中文語音輸入準確率的情況下,實現(xiàn)高精準中英文混合語音識別輸入。
在去年的百度AI開發(fā)者大會上,百度輸入法面對了一段高難度“Rap”識別挑戰(zhàn):“你的這個新model效果比baseline好多少,探索技術(shù)的depth和scope是我們的責(zé)任,我很喜歡barrier這個詞,AI的value其實就是break barrier”。
這段中英混雜的文字,即便讀出來也需在腦中回旋許久才能領(lǐng)會意思,但百度輸入法在現(xiàn)場卻零誤差的識別出來了,不但準確理解還根據(jù)語義進行了正確斷句,并且以非??斓乃俣壬掀脸尸F(xiàn)結(jié)果。
最后,在創(chuàng)新層面,總能給用戶帶來驚喜。
上文提到的無論是流式截斷多層注意力建模(SMLTA),還是“方言自由說”和“中英自由說”兩大功能,都是百度輸入法的創(chuàng)新成果。很明顯,因為創(chuàng)新給用戶帶來體驗提升的同時,也帶來了愉悅與驚喜,并因此完成了用戶的拉新與留存。
偶然使用過百度輸入法用戶,體驗過創(chuàng)新功能后,由路轉(zhuǎn)粉;百度輸入法的老用戶,在經(jīng)歷了輸入法的持續(xù)迭代進化,一直處于對下一次創(chuàng)新功能的期待中,進而成為鐵粉。
目前我們看到的百度輸入法呈現(xiàn)在外好像只是單純的聲音到文字的轉(zhuǎn)換,但事實上,百度輸入法已經(jīng)成為軟硬一體、語音語言一體,識別和交互一體的復(fù)雜應(yīng)用。
綜上而言,達成10億次成就,除了有深厚的技術(shù)實力作為支撐和保障,還需有技術(shù)溫度,帶來“人情”,感知“冷暖”。
二、打開AI的魔盒,我們到底需要怎樣的輸入法?
我們注意到,隨著AI開始進入工業(yè)大生產(chǎn)階段,輸入法的形態(tài)和模式也開始發(fā)生變化,從鍵盤打字輸入到語音輸入,我們看到的只是其中的一個表象,在AI的驅(qū)動下,輸入法正由內(nèi)向外在更多維度發(fā)生著變化。
在討論輸入法形態(tài)變化之前,我們需要理解輸入法進化的原因。
首先,用戶需求和場景倒逼,鍵盤打字輸入已經(jīng)out了。
在互聯(lián)網(wǎng)時代,輸入法只出現(xiàn)在PC端,使用場景單一,輸入法廠商只需保證輸入結(jié)果的準確和快捷即可具備較強的競爭力。
進入移動互聯(lián)網(wǎng)時代,用戶使用的智能終端變多,使用場景也更加豐富起來,這就要求輸入法不光要適用不同終端的使用習(xí)慣,還需適應(yīng)不同場景的使用需求,因而在操作方式上不再局限于鍵盤打字輸入,語音輸入方式成為一個非常重要的能力被提煉出來。
像此次疫情,語音輸入方式除了場景倒逼之外,用戶希望更快、更便捷的輸入體驗升級,也推動著傳統(tǒng)輸入法做出改變。
可以預(yù)測,當我們進入物聯(lián)網(wǎng)時代后,還會有更多的輸入方式出現(xiàn)。
其次,擁有AI內(nèi)核的輸入法變得無處不在無所不能。
輸入法自身也一直在尋求進化迭代,只是我們所說的輸入技術(shù)并非只局限于提高輸入法準確性的基礎(chǔ)能力,而是通過AI技術(shù)的賦能,創(chuàng)新輸入法產(chǎn)品形式,讓用戶獲得更好的使用體驗。
像百度輸入法基于NLP、圖像識別、AR等技術(shù),推出了NLP整句預(yù)測、AI斗圖、神句配圖、皮膚主體C位識別等功能,成為業(yè)內(nèi)首家實現(xiàn)多場景整句智能預(yù)測的輸入法產(chǎn)品;去年發(fā)布的AI探索版,還創(chuàng)新性的推出全語音交互的產(chǎn)品新形態(tài)和凌空手寫等領(lǐng)先的AI功能。
用戶需求和使用場景的變化,任何一個輸入法產(chǎn)品都能掌握,但能否根據(jù)這些變化做出應(yīng)對,則非??简灝a(chǎn)品在“輸入”之外的能力。一為行業(yè)進化趨勢的洞察力,一為支持產(chǎn)品迭代的技術(shù)儲備力。
三、踏上10億次臺階,百度開啟輸入法的生態(tài)空間
每天10億次語音請求交互是一個里程,也是一個臺階,一個邁向輸入法下個形態(tài)高度的臺階。對于百度輸入法來說,這個創(chuàng)造紀錄的數(shù)據(jù)則為其開啟生態(tài)空間的打法提供了基礎(chǔ)。
第一是用戶基礎(chǔ)。
在此之前,根據(jù)艾媒咨詢不久前發(fā)布的《2019中國第三方手機輸入法市場年度專題研究報告》顯示,百度輸入法去年全年月活增速處于行業(yè)第一,市場份額達43.1%,與搜狗幾近持平。
今年春節(jié)期間的語音請求交互流量的爆發(fā),百度輸入法在完成了對用戶語音輸入普及和教育的同時,也因新型輸入方式帶來的體驗升級進一步提升了用戶的粘性。
第二是內(nèi)容基礎(chǔ)。
當用戶的基數(shù)足夠大的時候,為滿足用戶的個性需求,輸入法的內(nèi)容承載形式也出現(xiàn)了創(chuàng)新。
百度輸入法不但與Cherry、FILCO、ROG等近20家外設(shè)頭部品牌建立了輸入法行業(yè)的獨家內(nèi)容生態(tài)聯(lián)盟,與這些外設(shè)品牌共同推出旗艦仿真鍵盤精品授權(quán)皮膚,還與Cherry合作打造仿真鍵盤,在華為Mate30 pro上高度還原Cherry實體機械鍵盤軸的觸感。
可鹽可甜,輸入內(nèi)容的豐富既是用戶體驗的升級,亦是產(chǎn)品技術(shù)的升級。
第三是硬件廠商的合作基礎(chǔ)。
百度輸入法龐大的用戶基礎(chǔ),也將順理成章的打通硬件廠商的預(yù)裝渠道,成為更多硬件終端的預(yù)裝應(yīng)用。
事實上,百度輸入法長期以來都是華為的預(yù)裝合作輸入法,二者在機型適配、輸入體驗的打造上已經(jīng)形成默契,很明顯,兩者的合作形成了雙贏的結(jié)局,這也給其他硬件廠商樹立了一個可以參照的典范。
可以想象,當百度輸入法進入越來越多的硬件終端時,結(jié)合其巨大的用戶基礎(chǔ)和豐富內(nèi)容,將構(gòu)建起一個充滿活力的輸入法生態(tài)。
由生態(tài)對抗單一的輸入法應(yīng)用,你可以將其理解為“搶跑”,也可理解為“降維”競爭,在輸入法的戰(zhàn)略布局上,百度又走在了前面。
此內(nèi)容為【智能相對論】原創(chuàng),
僅代表個人觀點,未經(jīng)授權(quán),任何人不得以任何方式使用,包括轉(zhuǎn)載、摘編、復(fù)制或建立鏡像。
部分圖片來自網(wǎng)絡(luò),且未核實版權(quán)歸屬,不作為商業(yè)用途,如有侵犯,請作者與我們聯(lián)系。
智能相對論:
•AI新媒體;
•今日頭條青云計劃獲獎?wù)逿OP10;
•澎湃新聞科技榜單月度top5;
•文章長期“霸占”鈦媒體熱門文章排行榜TOP10;
•著有《人工智能 十萬個為什么》
•【重點關(guān)注領(lǐng)域】智能駕駛、AI+醫(yī)療、機器人、AI+硬件(含無人機、智能手機、電視)、物聯(lián)網(wǎng)、AI+金融、AI+教育、AR/VR、云計算、開發(fā)者以及背后的芯片、算法等。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!