Labs 導(dǎo)讀
為了更好地解決行業(yè)合作、交互可信和數(shù)據(jù)共享問(wèn)題,實(shí)現(xiàn)跨行業(yè)的模型共享訓(xùn)練以及生態(tài)構(gòu)建,天津公司人工智能實(shí)驗(yàn)室打造了“珍瓏”,一款基于“區(qū)塊鏈+聯(lián)邦學(xué)習(xí)”的多方數(shù)據(jù)共享模型訓(xùn)練引擎,用于智慧零售、風(fēng)險(xiǎn)評(píng)估和滿意度預(yù)測(cè)等場(chǎng)景,實(shí)現(xiàn)多方隱私數(shù)據(jù)共享,構(gòu)建數(shù)據(jù)生態(tài),打破數(shù)據(jù)孤島,挖掘數(shù)據(jù)聯(lián)合價(jià)值,從而實(shí)現(xiàn)多方安全計(jì)算。
“珍瓏”取名字珍瓏棋局,來(lái)自于天龍八部小說(shuō)情節(jié),逍遙派掌門人無(wú)崖子擺出一個(gè)“珍瓏”棋局,邀請(qǐng)?zhí)煜掠⑿蹃?lái)破解?墒30年均無(wú)人解得,最后,棋局竟然被虛竹閉著眼睛胡亂撞開(kāi)。珍瓏,就是要匯聚各行業(yè)數(shù)據(jù)來(lái)產(chǎn)生價(jià)值,又能安全可信,最終一招點(diǎn)睛,全盤皆活。
這就是珍瓏的價(jià)值,通過(guò)引入先進(jìn)的聯(lián)邦學(xué)習(xí)技術(shù),充分發(fā)揮聯(lián)邦學(xué)習(xí)的跨行業(yè)模型共享能力,并將AI模型上鏈,結(jié)合聯(lián)盟鏈去中心化、開(kāi)放、防篡改、匿名、可追溯的關(guān)鍵特性,打造構(gòu)思奇巧又智慧共贏的共享智能引擎系統(tǒng),在運(yùn)營(yíng)商、本地生活、視頻內(nèi)容、交通出行等多行業(yè)數(shù)據(jù)的支撐下,實(shí)現(xiàn)精確的營(yíng)銷識(shí)別,并推薦最佳產(chǎn)品權(quán)益,讓區(qū)塊鏈+聯(lián)邦學(xué)習(xí)成為智慧零售的引擎、智腦。
1 珍瓏的創(chuàng)新點(diǎn)
(1)打造聯(lián)邦學(xué)習(xí)的模型共享訓(xùn)練引擎,實(shí)現(xiàn)更精準(zhǔn)的推薦。
基于聯(lián)邦學(xué)習(xí)模型實(shí)現(xiàn)中國(guó)移動(dòng)和互聯(lián)網(wǎng)合作伙伴間的共享、共贏 ,在保護(hù)各企業(yè)的數(shù)據(jù)安全的基礎(chǔ)上,協(xié)調(diào)多方資源,實(shí)現(xiàn)企業(yè)間的聯(lián)合建模,提升數(shù)據(jù)挖掘和推薦的準(zhǔn)確率。聯(lián)邦學(xué)習(xí)模型具有合理的激勵(lì)機(jī)制,參與方提供的數(shù)據(jù)越多,其模型的學(xué)習(xí)效果越好。珍瓏采用縱向聯(lián)邦學(xué)習(xí)機(jī)制,取出合作方針對(duì)相同用戶而特征不同的那部分?jǐn)?shù)據(jù)進(jìn)行共享訓(xùn)練。
(2)打破數(shù)據(jù)壁壘,實(shí)現(xiàn)多方安全計(jì)算的新機(jī)制
“珍瓏”打破堅(jiān)固的數(shù)據(jù)壁壘,其聯(lián)邦學(xué)習(xí)模型可以很好的解決數(shù)據(jù)不可出數(shù)據(jù)庫(kù)的壁壘問(wèn)題,企業(yè)數(shù)據(jù)不需要出倉(cāng),不存在原始數(shù)據(jù)被復(fù)制,以及傳輸過(guò)程中的安全隱患,即可完成多方聯(lián)合建模,取得比單獨(dú)企業(yè)數(shù)據(jù)更好的預(yù)測(cè)效果,聯(lián)邦學(xué)習(xí)框架,也支持獲取更全面的客戶特征,打造共享又可信的合作生態(tài)機(jī)制。
(3)結(jié)合區(qū)塊鏈優(yōu)勢(shì)解決聯(lián)邦學(xué)習(xí)的安全問(wèn)題,筑牢多方合作的信任基礎(chǔ)。
聯(lián)邦學(xué)習(xí)模型涉及到多方數(shù)據(jù)的共享訓(xùn)練,由聯(lián)邦中心負(fù)責(zé)秘鑰管理和模型梯度管理,需要定期對(duì)聯(lián)邦中心進(jìn)行審計(jì),存在信任的問(wèn)題。“珍瓏”采用區(qū)塊鏈這種“可信媒介”技術(shù)解決共識(shí)和可信問(wèn)題,所記錄的交易不可篡改,模型的訓(xùn)練、推理、角色對(duì)齊均上鏈,通過(guò)智能合約、共識(shí)計(jì)算等實(shí)現(xiàn)多方合作的可信網(wǎng)絡(luò),且能在多方聯(lián)邦情況下以區(qū)塊代替中心節(jié)點(diǎn)的作用,降本增效。
2 珍瓏的技術(shù)先進(jìn)性
珍瓏具有優(yōu)異的技術(shù)價(jià)值,創(chuàng)新性的將聯(lián)邦學(xué)習(xí)和區(qū)塊鏈結(jié)合起來(lái),解決運(yùn)營(yíng)商實(shí)際問(wèn)題,其架構(gòu)如圖所示。
企業(yè)數(shù)據(jù)層,中國(guó)移動(dòng)及合作伙伴的用戶隱私數(shù)據(jù)依然只存儲(chǔ)于各自內(nèi)網(wǎng)系統(tǒng)中,訓(xùn)練及推理請(qǐng)求均由內(nèi)網(wǎng)應(yīng)用發(fā)起。
聯(lián)邦參與方服務(wù)層,中國(guó)移動(dòng)及合作伙伴分別構(gòu)建一套本地AI模型,將模型特征及參數(shù),以及數(shù)據(jù)標(biāo)識(shí),提供給區(qū)塊服務(wù)層進(jìn)行數(shù)據(jù)上鏈,并接收其他參與方的模型等數(shù)據(jù)進(jìn)行數(shù)據(jù)共享的模型迭代更新。
區(qū)塊服務(wù)層,作為AI模型與區(qū)塊鏈CMBaas平臺(tái)的中間服務(wù)節(jié)點(diǎn),提供定制化數(shù)據(jù)上鏈及數(shù)據(jù)消費(fèi)的服務(wù)。
共享數(shù)據(jù)區(qū)塊平臺(tái)層,即CMBaas,通過(guò)智能合約及共識(shí)機(jī)制為整個(gè)系統(tǒng)提供去中心化、不可逆、互信的模型共享訓(xùn)練平臺(tái)。
珍瓏的“聯(lián)邦學(xué)習(xí)+區(qū)塊鏈”應(yīng)用,主要有數(shù)據(jù)對(duì)齊、模型訓(xùn)練、模型推理三個(gè)數(shù)據(jù)流:
(1)數(shù)據(jù)對(duì)齊,在模型開(kāi)始訓(xùn)練之前,各參與方需要共享加密后的用戶id數(shù)據(jù),同步給其他參與方進(jìn)行id對(duì)齊。
(2)模型訓(xùn)練,聯(lián)邦參與方進(jìn)行數(shù)據(jù)特征提取和本地模型訓(xùn)練,模型參數(shù)通過(guò)區(qū)塊鏈上鏈服務(wù)進(jìn)行數(shù)據(jù)上鏈,經(jīng)過(guò)CMBaas的智能合約判斷,并通過(guò)區(qū)塊鏈共識(shí)算法后,生成新的區(qū)塊。其他參與方的區(qū)塊消費(fèi)服務(wù)檢測(cè)發(fā)現(xiàn)新區(qū)塊的生成,獲取到區(qū)塊數(shù)據(jù)后進(jìn)行自己模型的參數(shù)迭代優(yōu)化,更新參數(shù),直到所有聯(lián)邦參與方均達(dá)到模型預(yù)設(shè)收斂條件。
(3)模型推理,中國(guó)移動(dòng)及合作伙伴發(fā)起模型推理請(qǐng)求,區(qū)塊服務(wù)進(jìn)行數(shù)據(jù)上鏈,智能合約及共識(shí)算法進(jìn)行數(shù)據(jù)驗(yàn)證并生成區(qū)塊,其他參與方監(jiān)測(cè)新區(qū)塊生成,判斷推理請(qǐng)求是否與自身相關(guān),進(jìn)行共同推理解密,請(qǐng)求方獲得最終模型推理結(jié)果,返回業(yè)務(wù)系統(tǒng)。
3 珍瓏的商業(yè)推廣價(jià)值
(1)“運(yùn)營(yíng)商+互聯(lián)網(wǎng)公司”多方共享的智慧零售
智慧零售的目的,就是要用AI和大數(shù)據(jù)技術(shù)為客戶帶來(lái)個(gè)性化的營(yíng)銷服務(wù)。成功的營(yíng)銷方案必須合理搭配產(chǎn)品特征、客戶購(gòu)買能力和購(gòu)買偏好等三大要素;ヂ(lián)網(wǎng)內(nèi)容商擁有大量的產(chǎn)品信息、銀行或保險(xiǎn)公司有客戶購(gòu)買能力的數(shù)據(jù),中國(guó)移動(dòng)有用戶的購(gòu)買偏好信息。出于隱私保護(hù)是無(wú)法實(shí)現(xiàn)數(shù)據(jù)共享的,“珍瓏”就可以打破這種堅(jiān)固的數(shù)據(jù)壁壘,基于聯(lián)邦學(xué)習(xí)模型,各個(gè)參與企業(yè)的數(shù)據(jù)停留在本地?cái)?shù)據(jù)庫(kù),即可完成多方安全計(jì)算和聯(lián)合建模,取得比單獨(dú)企業(yè)數(shù)據(jù)進(jìn)更好的分析效果,獲取更全面的客戶特征,推薦更精準(zhǔn),挖掘更多的商機(jī)。
(2)“運(yùn)營(yíng)商+銀行”聯(lián)合信用評(píng)估
珍瓏?yán)寐?lián)邦學(xué)習(xí)技術(shù)搭建中國(guó)移動(dòng)和銀行之間的聯(lián)邦和信用評(píng)分模型,雙方在不共享數(shù)據(jù)的基礎(chǔ)上實(shí)現(xiàn)了聯(lián)合建模,從技術(shù)上打破數(shù)據(jù)孤島,實(shí)現(xiàn)更準(zhǔn)確高效的信用評(píng)估,同時(shí),區(qū)塊鏈也確保了去中心化架構(gòu),多家運(yùn)營(yíng)商和銀行可以打造信用評(píng)分共享機(jī)制,結(jié)果可追溯且不可篡改,形成模型共享訓(xùn)練生態(tài)。
4 珍瓏與區(qū)塊鏈的聯(lián)系
產(chǎn)品和區(qū)塊鏈技術(shù)結(jié)合緊密,真正用區(qū)塊鏈解決了AI建模的難題,實(shí)現(xiàn)“聯(lián)邦學(xué)習(xí)+區(qū)塊鏈”的新模式、新應(yīng)用。
在多方共同參與模型訓(xùn)練后,如何對(duì)多方數(shù)據(jù)進(jìn)行統(tǒng)一管理,就成為一個(gè)重要課題,珍瓏通過(guò)引入?yún)^(qū)塊鏈智能合約技術(shù)解決這個(gè)難題。
(1)多方貢獻(xiàn)度判定
多參與方在進(jìn)行數(shù)據(jù)上鏈時(shí),均會(huì)在區(qū)塊鏈平臺(tái)生成一個(gè)永久不可逆的數(shù)據(jù)區(qū)塊,以此計(jì)算當(dāng)前參與方本次上鏈對(duì)整體模型的貢獻(xiàn)度,在模型收斂后,可以對(duì)全部參與方對(duì)最終模型的貢獻(xiàn)度進(jìn)行量化判斷,為聯(lián)邦參與方的合作提供談判依據(jù)。
(2)異常參與方識(shí)別
在平臺(tái)運(yùn)營(yíng)過(guò)程中,通過(guò)智能合約及共識(shí)算法對(duì)各參與方的訓(xùn)練及推理請(qǐng)求進(jìn)行統(tǒng)一規(guī)則的判定,如發(fā)現(xiàn)非法上鏈請(qǐng)求,將會(huì)拒絕在區(qū)塊鏈中生成區(qū)塊,從而規(guī)避風(fēng)險(xiǎn),控制流量,保障優(yōu)質(zhì)合作方的請(qǐng)求。
5 產(chǎn)品成效及下一步發(fā)展
當(dāng)前,“珍瓏”整體架構(gòu)已經(jīng)在CMBAAS區(qū)塊鏈平臺(tái)大賽中進(jìn)行了demo的開(kāi)發(fā)、部署、驗(yàn)證工作,將B域大數(shù)據(jù)用戶標(biāo)簽與O域家寬數(shù)據(jù)模擬兩方進(jìn)行聯(lián)合共享訓(xùn)練,實(shí)現(xiàn)用戶資費(fèi)滿意度的預(yù)測(cè)模型。已實(shí)現(xiàn)的滿意度預(yù)測(cè)聯(lián)合訓(xùn)練部署架構(gòu)如下:
下一步將在三個(gè)方面持續(xù)提升:
(1)整體平臺(tái)部署及網(wǎng)絡(luò)聯(lián)調(diào)
在整體平臺(tái)架構(gòu)中涉及內(nèi)網(wǎng)應(yīng)用主動(dòng)訪問(wèn)互聯(lián)網(wǎng)應(yīng)用的需求,一方面,CMBaas區(qū)塊平臺(tái)及服務(wù)需要部署公網(wǎng),以吸引更多域外企業(yè)加入生態(tài),另一方面,聯(lián)邦學(xué)習(xí)需要獲取企業(yè)內(nèi)網(wǎng)用戶數(shù)據(jù)實(shí)現(xiàn)多方數(shù)據(jù)聯(lián)合訓(xùn)練,因此,需要打通內(nèi)外網(wǎng)網(wǎng)絡(luò),通過(guò)防火墻管控內(nèi)外網(wǎng)聯(lián)通端口。
(2)構(gòu)建統(tǒng)一管理平臺(tái)
構(gòu)建一套參與方管理平臺(tái),通過(guò)頁(yè)面可視化方式,一方面實(shí)現(xiàn)參與方的自助注冊(cè)、數(shù)據(jù)上傳、模型申請(qǐng)、推理服務(wù)等業(yè)務(wù)能力,另一方面為平臺(tái)提供參與方入駐審核、狀態(tài)管理、貢獻(xiàn)度查詢、異常參與方判斷等管理能力。
(3)擴(kuò)展聯(lián)邦學(xué)習(xí)模型算法類型
目前已完成基于決策樹(shù)模型的資費(fèi)滿意度預(yù)測(cè)模型構(gòu)建,后續(xù)可以預(yù)置其他高級(jí)智能模型,如CNN/RNN,預(yù)訓(xùn)練模型等,實(shí)現(xiàn)各參與方入駐后直接選擇相關(guān)模型進(jìn)行業(yè)務(wù)場(chǎng)景構(gòu)建。
后續(xù),“珍瓏”將積極推進(jìn)平臺(tái)推廣及生態(tài)運(yùn)營(yíng),吸引運(yùn)營(yíng)商領(lǐng)域以外的企業(yè)入駐,通過(guò)多方數(shù)據(jù)的可控共享,實(shí)現(xiàn)多方的業(yè)務(wù)共贏。
團(tuán)隊(duì)介紹:
趙東明,項(xiàng)目負(fù)責(zé)人,博士,浙江大學(xué)博士后,中國(guó)移動(dòng)AI中臺(tái)專家/“高層次”專家/IT高級(jí)專家,天津移動(dòng)AI實(shí)驗(yàn)室負(fù)責(zé)人,累計(jì)獲得116項(xiàng)科技獎(jiǎng)勵(lì)及榮譽(yù),16項(xiàng)發(fā)明專利,20余篇高水平論文,負(fù)責(zé)產(chǎn)品的人工智能、區(qū)塊鏈技術(shù)研發(fā)、算法研究和產(chǎn)業(yè)賦能工作。
田雷,技術(shù)負(fù)責(zé)人,北大數(shù)學(xué)系碩士,天津中心大數(shù)據(jù)架構(gòu)專家,積累了大量數(shù)據(jù)倉(cāng)庫(kù)和大數(shù)據(jù)平臺(tái)的系統(tǒng)架構(gòu)、數(shù)據(jù)模型、需求開(kāi)發(fā)的先進(jìn)經(jīng)驗(yàn),負(fù)責(zé)產(chǎn)品的聯(lián)邦學(xué)習(xí)算法及大數(shù)據(jù)支撐工作。
劉靜,系統(tǒng)架構(gòu)師,華中師范大學(xué)碩士,中國(guó)移動(dòng)集團(tuán)大數(shù)據(jù)專家,長(zhǎng)期鉆研客戶需求深度挖掘,基于AI算法促進(jìn)存量客戶價(jià)值循環(huán)升檔研究,負(fù)責(zé)產(chǎn)品的區(qū)塊鏈算法及工程實(shí)現(xiàn)。
石理,算法工程師,南開(kāi)大學(xué)碩士,集團(tuán)AI中臺(tái)專家,在人工智能、計(jì)算機(jī)視覺(jué)、機(jī)器學(xué)習(xí)方面具有較豐富的研發(fā)經(jīng)驗(yàn),負(fù)責(zé)視覺(jué)產(chǎn)品的聯(lián)邦學(xué)習(xí)算法研發(fā)。
吳娜,交互設(shè)計(jì)師,北京郵電大學(xué)碩士,UI專家,負(fù)責(zé)產(chǎn)品交互界面的設(shè)計(jì)、開(kāi)發(fā),以及AI模型的標(biāo)準(zhǔn)、運(yùn)營(yíng)和優(yōu)化。
特別鳴謝:亞信科技PRD研發(fā)中心技術(shù)專家楊愛(ài)東、孔令魯、林大興、劉志勇、韋強(qiáng)申,以及CMC客服產(chǎn)品部的徐晨興、王新,給予充分的技術(shù)支持和幫助。