一點資訊田超:大數(shù)據(jù)能為資訊平臺帶來什么?

2016-11-17 15:06 來源:互聯(lián)網(wǎng) 我來投稿 撤稿糾錯

  10萬+優(yōu)質(zhì)自媒體資源,精準(zhǔn)引流

WOT2016大數(shù)據(jù)峰會將于2016年11月25-26日在北京粵財JW萬豪酒店召開,屆時,數(shù)十位大數(shù)據(jù)領(lǐng)域一線專家、數(shù)據(jù)技術(shù)先行者將齊聚現(xiàn)場,在圍繞機器學(xué)習(xí)、實時計算、系統(tǒng)架構(gòu)、NoSQL技術(shù)實踐等前沿技術(shù)話題展開深度交流和溝通探討的同時,分享大數(shù)據(jù)領(lǐng)域最新實踐和最熱門的行業(yè)應(yīng)用。

51CTO記者對即將參加大會演講的一點資訊大數(shù)據(jù)平臺研發(fā)總監(jiān)田超行了專訪,讓我們先睹為快,探聽田超在一點資訊大規(guī)模實時點擊反饋平臺方面的心得。

 

田超,目前在一點資訊任職大數(shù)據(jù)中心技術(shù)總監(jiān)負責(zé)基礎(chǔ)架構(gòu)及大數(shù)據(jù)平臺相關(guān)工作。碩士畢業(yè)于中國科學(xué)院計算技術(shù)研究所,曾任職雅虎北京研發(fā)中心工程師、同步盤CTO、高德軟件高級技術(shù)經(jīng)理等職?,F(xiàn)任一點資訊大數(shù)據(jù)平臺技術(shù)總監(jiān)。

大數(shù)據(jù)技術(shù)是對于海量數(shù)據(jù)的處理能力及構(gòu)建在這樣處理能力之上的數(shù)據(jù)應(yīng)用。從Hadoop大規(guī)模普及開始,業(yè)界擁有了構(gòu)建大規(guī)模數(shù)據(jù)存儲和計算的能力,而隨著技術(shù)的不斷發(fā)展,上層應(yīng)用對于擁有實時處理海量數(shù)據(jù)能力的需求在不斷增強,這就衍生出了如Storm在內(nèi)的各種實時計算的框架和系統(tǒng)。而今天做的一些技術(shù)包括Spark、Googledataflow等則希望能夠更有機的將離線計算與在線計算進行統(tǒng)一。

實時的數(shù)據(jù)處理能力對于一個現(xiàn)代互聯(lián)網(wǎng)公司來說是必要的組成部分。各個公司的在線機器學(xué)習(xí)、實時用戶畫像系統(tǒng)、實時數(shù)據(jù)倉庫、實時統(tǒng)計分析系統(tǒng)等業(yè)務(wù)都需要擁有實時的大規(guī)模反饋數(shù)據(jù)計算的能力,這些系統(tǒng)的實時計算部分有一定的共同點,也有一定的特殊部分。一點資訊的實時反饋平臺在設(shè)計之初對上述系統(tǒng)對實時計算部分的公用計算模型和數(shù)據(jù)結(jié)構(gòu)進行了抽象,對系統(tǒng)設(shè)計的時候參考了Google的Mesa系統(tǒng),從而設(shè)計成為一個可擴展的平臺,能夠在一點咨詢內(nèi)部支撐著上述系統(tǒng)的實時計算部分任務(wù)。

許多的資訊平臺智能為讀者服務(wù),但是一點資訊可以反向,為讀者服務(wù)的同時也可以為作者提供資訊。系統(tǒng)在根據(jù)用戶的行為來分析,以及挖掘用戶對興趣的需求和需求被滿足的情況。這些數(shù)據(jù)及對數(shù)據(jù)的深度挖掘為一點資訊的內(nèi)容生態(tài)建設(shè),提供了一個全局的上帝視角,使一點資訊可以從更高的角度來觀察群體上的表現(xiàn)及內(nèi)容趨勢。一點資訊還有一個叫一點insight的系統(tǒng),目前屬于邀約測試中,該系統(tǒng)會把對于用戶興趣的知識映射到不同的領(lǐng)域上,以各種數(shù)據(jù)可視化的方式來展示這些知識。

搜索引擎強調(diào)的是用戶搜索,相當(dāng)于用戶帶領(lǐng)內(nèi)容;推薦是用戶完全處于被動,也不做表達,先給予用戶共性的內(nèi)容,再根據(jù)其點擊行為,猜測用戶的喜好,然后再將內(nèi)容推薦給用戶。搜索引擎和推薦引擎是有著相似結(jié)構(gòu)的不同系統(tǒng)。把搜索技術(shù)和推薦技術(shù)有機的融合在一起,是一點資訊興趣引擎設(shè)計的核心目標(biāo)。興趣引擎中,對于用戶的搜索和推薦行為數(shù)據(jù)底層完全打通,充分的利用用戶主動表達與被動行為信號,基于人工智能技術(shù)不斷學(xué)習(xí)和挖掘用戶的興趣,并基于用戶興趣進行內(nèi)容的分發(fā)。

對于大數(shù)據(jù)到人工智能之間技術(shù)的不斷發(fā)展,在田超看來實際上是業(yè)界對數(shù)據(jù)的處理,以及利用能力不斷發(fā)展提升的自然過程。最早的時候,業(yè)界大多數(shù)技術(shù)都是用來處理結(jié)果數(shù)據(jù)的,數(shù)據(jù)量在GB級別,存儲使用Database,對于數(shù)據(jù)獲取和存儲計算的能力處于初級階段;隨著Hadoop等一系列基礎(chǔ)架構(gòu)的不斷發(fā)展,大數(shù)據(jù)技術(shù)也不斷發(fā)展起來,技術(shù)人員不僅僅是處理業(yè)務(wù)結(jié)果數(shù)據(jù),對描述用戶行為的日志也進行了更深度的處理,輔助業(yè)務(wù)進行計算,這個時代數(shù)據(jù)量已經(jīng)增長到了PB級別,存儲使用各種分布式文件系統(tǒng),這一階段各種離線計算、流式計算、圖計算模型也都隨著大數(shù)據(jù)應(yīng)用的發(fā)展而發(fā)展起來;而今天,在已經(jīng)擁有了更好的計算模型以及更加海量的數(shù)據(jù)之后,對于數(shù)據(jù)的利用也更加深化,人工智能及深度學(xué)習(xí)技術(shù)與大數(shù)據(jù)的結(jié)合也可以構(gòu)造更加智能的應(yīng)用。

51CTO主辦的高端技術(shù)峰會【W(wǎng)OT2016“大數(shù)據(jù)技術(shù)峰會】將于11月25日-26日在北京粵財JW萬豪酒店盛大揭幕,40余位業(yè)內(nèi)重量級嘉賓匯聚,解析大數(shù)據(jù)技術(shù)與行業(yè)應(yīng)用的實踐結(jié)合。福利大放送,主辦方將邀請更多講師來到“WOT講師專訪間”,深度解析技術(shù)干貨。

標(biāo)簽

推薦文章