隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)發(fā)展以及各種數(shù)字化終端設(shè)備的普及,2023年全球產(chǎn)生的數(shù)據(jù)量接近100ZB,且大部分是非結(jié)構(gòu)化形態(tài)。要將原始形態(tài)數(shù)據(jù),轉(zhuǎn)化為機(jī)器可識(shí)別和學(xué)習(xí)的格式,數(shù)據(jù)標(biāo)注服務(wù)應(yīng)運(yùn)而生。這兩年生成式AI的突破性發(fā)展,更是帶動(dòng)數(shù)據(jù)標(biāo)注從小眾服務(wù)迅速成長(zhǎng)為潛力巨大的產(chǎn)業(yè)。根據(jù)Grand View Research的報(bào)告,2023年全球數(shù)據(jù)標(biāo)注工具和服務(wù)市場(chǎng)規(guī)模達(dá)85億美元,其中,美國(guó)為28億美元,占1/3,尤其數(shù)據(jù)標(biāo)注工具更為突出,占全球市場(chǎng)接近40%。據(jù)MARKETSANDMARKETS統(tǒng)計(jì),當(dāng)前全球Top30數(shù)據(jù)標(biāo)注服務(wù)提供商中美國(guó)就有18家。
數(shù)據(jù)質(zhì)量是AI模型訓(xùn)練面臨的最大挑戰(zhàn)。據(jù)美國(guó)最著名數(shù)據(jù)標(biāo)注服務(wù)公司Scale AI對(duì)其1300名從業(yè)者調(diào)查發(fā)現(xiàn),三分之一表示他們遇到的首要問(wèn)題是數(shù)據(jù)質(zhì)量問(wèn)題,其次是收集、分析、存儲(chǔ)和版本控制問(wèn)題。作為AI價(jià)值鏈的“上游”環(huán)節(jié),沒(méi)有高質(zhì)量數(shù)據(jù)集,意味著“下游”就無(wú)法高質(zhì)量建模,數(shù)據(jù)錯(cuò)誤會(huì)轉(zhuǎn)化為AI的偏見(jiàn)和誤導(dǎo)性預(yù)測(cè)。高質(zhì)量數(shù)據(jù)集開(kāi)發(fā)和提供因此成為數(shù)據(jù)標(biāo)注服務(wù)的核心競(jìng)爭(zhēng)力。
美國(guó)政府制定 “通過(guò)數(shù)據(jù)擴(kuò)大機(jī)會(huì)和發(fā)現(xiàn)”戰(zhàn)略,積極推動(dòng)AI高質(zhì)量數(shù)據(jù)提供
自提出數(shù)字經(jīng)濟(jì)戰(zhàn)略,美國(guó)政府就開(kāi)始重視數(shù)據(jù)高質(zhì)量供給問(wèn)題。美國(guó)的數(shù)據(jù)管理機(jī)構(gòu)是商務(wù)部,于2016年成立獨(dú)立的聯(lián)邦咨詢(xún)委員會(huì)數(shù)字經(jīng)濟(jì)顧問(wèn)委員會(huì)(DEBA),同年底發(fā)布《數(shù)字經(jīng)濟(jì)戰(zhàn)略》,強(qiáng)調(diào)技術(shù)和數(shù)據(jù)的雙輪驅(qū)動(dòng)。
人工智能戰(zhàn)略中,美國(guó)政府尤其重視數(shù)據(jù)高質(zhì)量提供問(wèn)題。2020年,特朗普總統(tǒng)宣布美國(guó)AI倡議承諾“增強(qiáng)高質(zhì)量和完全可追溯的聯(lián)邦數(shù)據(jù)的訪問(wèn)……提高這些資源對(duì)AI研發(fā)的價(jià)值”,并指示機(jī)構(gòu)識(shí)別并解決數(shù)據(jù)質(zhì)量限制問(wèn)題!堵(lián)邦數(shù)據(jù)戰(zhàn)略2020年行動(dòng)計(jì)劃》旨在通過(guò)集中聯(lián)邦政府資源推動(dòng)AI技術(shù)發(fā)展,(1)強(qiáng)調(diào)了數(shù)據(jù)共享與開(kāi)放,為數(shù)據(jù)標(biāo)注服務(wù)提供了更豐富的數(shù)據(jù)資源,提高了數(shù)據(jù)的質(zhì)量和覆蓋范圍;(2)強(qiáng)調(diào)了數(shù)據(jù)治理和隱私保護(hù)的重要性,這有助于增強(qiáng)公眾對(duì)數(shù)據(jù)標(biāo)注服務(wù)的信任;(3)促進(jìn)跨部門(mén)合作,形成了統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)和共享機(jī)制,提高了數(shù)據(jù)標(biāo)注的效率和質(zhì)量。這些措施共同構(gòu)建了一個(gè)更加健全和高效的AI數(shù)據(jù)服務(wù)體系,對(duì)美國(guó)的數(shù)據(jù)標(biāo)注服務(wù)及產(chǎn)業(yè)的高質(zhì)量發(fā)展產(chǎn)生了積極的影響。
生成式AI進(jìn)一步促進(jìn)美國(guó)政府對(duì)高質(zhì)量數(shù)據(jù)集提供的關(guān)注。今年1月,美國(guó)商務(wù)部數(shù)據(jù)治理委員會(huì)啟動(dòng)了AI和開(kāi)放政府?dāng)?shù)據(jù)資產(chǎn)工作組,任務(wù)是制定可供生成式AI使用的數(shù)據(jù)開(kāi)放指南。4月,工作組面向公眾發(fā)布《為AI準(zhǔn)備的政府?dāng)?shù)據(jù)資產(chǎn)開(kāi)放》的需求征詢(xún)。強(qiáng)調(diào)AI工具越來(lái)越多地用于數(shù)據(jù)分析和數(shù)據(jù)訪問(wèn),為確保AI能夠恰當(dāng)便捷地訪問(wèn)數(shù)據(jù),要確保所訪問(wèn)數(shù)據(jù)的完整性,確保數(shù)據(jù)“機(jī)器可理解”,而不僅僅是“機(jī)器可讀”,強(qiáng)調(diào)高質(zhì)量數(shù)據(jù)集提供至關(guān)重要。
美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)落實(shí)可信AI原則,制定標(biāo)準(zhǔn)和框架,規(guī)范高質(zhì)量數(shù)據(jù)集
美國(guó)將AI系統(tǒng)的倫理和社會(huì)影響納入國(guó)家標(biāo)準(zhǔn)戰(zhàn)略,其中之一是確保AI系統(tǒng)的可靠和可信,主要由商務(wù)部下屬的聯(lián)邦機(jī)構(gòu)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)來(lái)領(lǐng)導(dǎo)制定相關(guān)標(biāo)準(zhǔn)。
2023年1月,NIST發(fā)布了AI風(fēng)險(xiǎn)管理框架(RMF)。特別強(qiáng)調(diào)沒(méi)有數(shù)據(jù)就沒(méi)有AI,可信AI依賴(lài)高質(zhì)量數(shù)據(jù)集。AI系統(tǒng)運(yùn)作的功能和決策可信度,很大程度上取決于系統(tǒng)訓(xùn)練所需的數(shù)據(jù)集。因此,應(yīng)采取必要措施以確保使用數(shù)據(jù)時(shí)遵守負(fù)責(zé)任的AI原則。
NIST積極推動(dòng)全球可信AI標(biāo)準(zhǔn)的制定。2023年10月,拜登總統(tǒng)發(fā)布關(guān)于安全可靠和值得信賴(lài)的人工智能的行政命令,旨在建立新的AI安全和保障標(biāo)準(zhǔn),促進(jìn)創(chuàng)新和競(jìng)爭(zhēng),引領(lǐng)全球并推進(jìn)美國(guó)的領(lǐng)導(dǎo)力。行政命令發(fā)布180天后, NIST如期發(fā)布四份草案文件,旨在幫助提高人工智能(AI)系統(tǒng)的安全性、安全性和可信賴(lài)性,其中第四份提出了制定全球AI標(biāo)準(zhǔn)的計(jì)劃。
NIST不斷開(kāi)發(fā)并推出高質(zhì)量數(shù)據(jù)集。例如,NIST與執(zhí)法機(jī)構(gòu)、民間社會(huì)和其他利益相關(guān)者合作開(kāi)發(fā)面部數(shù)據(jù)集,可作為開(kāi)發(fā)面部識(shí)別技術(shù)的組織共享使用。美國(guó)政府介入提供急需的高質(zhì)量數(shù)據(jù)已有先例。例如,美國(guó)交通部在2015年開(kāi)始著手建立一個(gè)公開(kāi)可訪問(wèn)的國(guó)家地址數(shù)據(jù)庫(kù),此前他們認(rèn)識(shí)到幾個(gè)政府機(jī)構(gòu)以及經(jīng)濟(jì)的大部分部門(mén)都在收集和依賴(lài)地址數(shù)據(jù),但缺乏這些信息的單一、全面來(lái)源,導(dǎo)致重復(fù)收集和碎片化的數(shù)據(jù)集。
美國(guó)數(shù)據(jù)標(biāo)注企業(yè)制定數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)和管理流程,研究方法和技術(shù),落實(shí)高質(zhì)量數(shù)據(jù)集提供
高質(zhì)量數(shù)據(jù)集首要的前提是確保數(shù)據(jù)的安全合規(guī)。數(shù)據(jù)標(biāo)注公司積極參與并獲得數(shù)據(jù)管理頂級(jí)行業(yè)和國(guó)際標(biāo)準(zhǔn)認(rèn)證,比如,LableYourData公司的數(shù)據(jù)標(biāo)記和數(shù)據(jù)處理服務(wù)獲得了PCI DSS Level 1和ISO/IEC 27001:2013認(rèn)證,并符合GDPR和CCPA規(guī)定。SuperAnnotate通過(guò)認(rèn)證和遵守包括 SOC2Type2、HIPAA、GDPR、SSO、2FA 和 CCPA等行業(yè)安全標(biāo)準(zhǔn)和框架來(lái)優(yōu)先考慮數(shù)據(jù)安全。
其次,數(shù)據(jù)標(biāo)注企業(yè)總結(jié)高質(zhì)量數(shù)據(jù)集的相關(guān)標(biāo)準(zhǔn)。比如,ClickWorker公司總結(jié)出高質(zhì)量數(shù)據(jù)集的六要素:準(zhǔn)確性、完整性、一致性、時(shí)效性、有效性和獨(dú)特性。LableYourData公司認(rèn)為高質(zhì)量數(shù)據(jù)集必須符合相關(guān)性并具一定覆蓋范圍:1、數(shù)據(jù)集的數(shù)據(jù)應(yīng)與建模目標(biāo)相關(guān)。如果為自動(dòng)駕駛汽車(chē)設(shè)計(jì)ML算法,即使是由名人照片組成的最好的數(shù)據(jù)集,但不具相關(guān)性也沒(méi)用。2、確保構(gòu)成數(shù)據(jù)集的數(shù)據(jù)片段足夠高質(zhì)量,讓數(shù)據(jù)符合所需特征列表。例如,當(dāng)構(gòu)建面部識(shí)別模型時(shí),訓(xùn)練照片需要具有足夠好的質(zhì)量。3、保證數(shù)據(jù)特征豐富性和多元性,避免不平衡的數(shù)據(jù)集導(dǎo)致模型結(jié)果存在盲點(diǎn)和偏見(jiàn)的問(wèn)題。4、盡量使用真實(shí)數(shù)據(jù),雖然假數(shù)據(jù)更便宜、更干凈,并且數(shù)量充足,但假數(shù)據(jù)可能導(dǎo)致模型結(jié)果過(guò)度擬合或欠擬合。
再次,數(shù)據(jù)標(biāo)注公司制定并在標(biāo)注平臺(tái)內(nèi)嵌數(shù)據(jù)質(zhì)量保證(QA)程序化流程。比如,Kili科技公司研發(fā)了從數(shù)據(jù)上載到數(shù)據(jù)標(biāo)注再到數(shù)據(jù)集交付的完整QA工作流,通過(guò)一致性檢查、審查與反饋以及質(zhì)量控制指標(biāo)等工具,增強(qiáng)質(zhì)量管理;允許在標(biāo)注界面直接使用自定義QA腳本進(jìn)行錯(cuò)誤的自動(dòng)化識(shí)別,也可以使用預(yù)構(gòu)建的模型自動(dòng)發(fā)現(xiàn)并修復(fù)數(shù)據(jù)集的問(wèn)題,保證95%準(zhǔn)確率的高質(zhì)量數(shù)據(jù)集的交付。
另外,標(biāo)注公司研究高質(zhì)量數(shù)據(jù)集的評(píng)估指標(biāo)和參數(shù)。比如,LableYourData公司的數(shù)據(jù)質(zhì)量測(cè)算指標(biāo)包括:(1)標(biāo)注者間一致性測(cè)算,貫穿整個(gè)數(shù)據(jù)集、標(biāo)注器之間、標(biāo)簽之間的每個(gè)任務(wù),確保每個(gè)標(biāo)注者在數(shù)據(jù)集的所有類(lèi)別中使用的方法是一致的;(2)共識(shí)算法,測(cè)算所有標(biāo)注者所提供的標(biāo)注的共識(shí)度,并確定最終標(biāo)注;(3)Cronbach's Alpha測(cè)試,幫助檢查整個(gè)數(shù)據(jù)集的標(biāo)注的一致性和可靠性。
啟示
總結(jié)以上美國(guó)企業(yè)高質(zhì)量數(shù)據(jù)集提供做法,對(duì)于我國(guó)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)高質(zhì)量發(fā)展有以下三點(diǎn)啟示:
1.統(tǒng)籌數(shù)字經(jīng)濟(jì)、數(shù)據(jù)要素與AI+三大戰(zhàn)略,培育可信AI生態(tài)系統(tǒng)。
美國(guó)的數(shù)字經(jīng)濟(jì)、AI和數(shù)據(jù)三大方面戰(zhàn)略,都統(tǒng)一歸口到美國(guó)商務(wù)部管理,充分發(fā)揮了政府、研究機(jī)構(gòu)和企業(yè)之間的協(xié)作關(guān)系,也極大釋放了數(shù)據(jù)要素價(jià)值。為促進(jìn)我國(guó)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)的高質(zhì)量發(fā)展,建議采取類(lèi)似的三位一體戰(zhàn)略,構(gòu)建以需求為中心的應(yīng)用導(dǎo)向的可信AI生態(tài)系統(tǒng)。
2.構(gòu)建數(shù)據(jù)標(biāo)注產(chǎn)業(yè)服務(wù)平臺(tái),加大對(duì)中小企業(yè)的扶持力度。
美國(guó)大型AI公司和標(biāo)注服務(wù)企業(yè)在推動(dòng)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)的技術(shù)革新和高質(zhì)量發(fā)展方面發(fā)揮著關(guān)鍵作用,為促進(jìn)我國(guó)標(biāo)注產(chǎn)業(yè)發(fā)展和技術(shù)創(chuàng)新,建議聚焦數(shù)據(jù)要素×行業(yè)應(yīng)用和AI+重點(diǎn)項(xiàng)目,結(jié)合公共數(shù)據(jù)運(yùn)營(yíng),組織構(gòu)建數(shù)據(jù)標(biāo)注產(chǎn)業(yè)服務(wù)平臺(tái),將數(shù)據(jù)資源和算力作為公共服務(wù)向中小企業(yè)提供,節(jié)省他們的數(shù)據(jù)獲取成本。
3.加強(qiáng)數(shù)據(jù)管理和標(biāo)準(zhǔn)制定,推動(dòng)企業(yè)數(shù)據(jù)標(biāo)注技術(shù)創(chuàng)新和質(zhì)量提升。
美國(guó)企業(yè)通過(guò)技術(shù)創(chuàng)新和嚴(yán)格的質(zhì)量控制,確保了數(shù)據(jù)集的高質(zhì)量。我國(guó)數(shù)據(jù)標(biāo)注企業(yè)應(yīng)加強(qiáng)技術(shù)創(chuàng)新,利用生成式AI等先進(jìn)技術(shù)提高數(shù)據(jù)標(biāo)注的效率和質(zhì)量。同時(shí),建立嚴(yán)格的數(shù)據(jù)質(zhì)量管理體系,從數(shù)據(jù)的采集、處理到標(biāo)注的每個(gè)環(huán)節(jié)都進(jìn)行嚴(yán)格的質(zhì)量控制。此外,國(guó)家應(yīng)推動(dòng)數(shù)據(jù)、數(shù)據(jù)治理及管理相關(guān)標(biāo)準(zhǔn)體系制定,企業(yè)應(yīng)積極參與國(guó)家和國(guó)際標(biāo)準(zhǔn)制定,通過(guò)獲得行業(yè)、國(guó)家和國(guó)際標(biāo)準(zhǔn)認(rèn)證,提升數(shù)據(jù)集開(kāi)發(fā)的質(zhì)量和核心競(jìng)爭(zhēng)力,打造數(shù)據(jù)標(biāo)注領(lǐng)域的全球品牌。
本文作者
漆晨曦
戰(zhàn)略發(fā)展研究所
高級(jí)分析師
高級(jí)經(jīng)濟(jì)師,26年通信行業(yè)的數(shù)據(jù)分析、數(shù)據(jù)挖掘和數(shù)據(jù)科學(xué)及BI、營(yíng)銷(xiāo)一體化平臺(tái)架構(gòu)和業(yè)務(wù)規(guī)范的相關(guān)專(zhuān)業(yè)實(shí)踐和研究經(jīng)驗(yàn),近年專(zhuān)注企業(yè)數(shù)字化運(yùn)營(yíng)轉(zhuǎn)型和數(shù)據(jù)要素市場(chǎng)研究。
朱瑩瑩
戰(zhàn)略發(fā)展研究所
副主任分析師
高級(jí)經(jīng)濟(jì)師,碩士,長(zhǎng)期從事通信行業(yè)競(jìng)爭(zhēng)分析、數(shù)字經(jīng)濟(jì)產(chǎn)業(yè)及前沿技術(shù)跟蹤研究等工作。
徐靜
戰(zhàn)略發(fā)展研究所
一級(jí)分析師
就職于中國(guó)電信研究院,長(zhǎng)期從事用戶(hù)需求調(diào)研、互聯(lián)網(wǎng)產(chǎn)品研究,近來(lái)專(zhuān)注人工智能領(lǐng)域。