11月15日,國家廣播電視總局科技司公布了《數(shù)字虛擬人技術要求》行業(yè)標準報批稿。
該文件規(guī)定了廣播電視和網(wǎng)絡視聽行業(yè)數(shù)字虛擬人的技術要求,對于數(shù)字虛擬人分類、應用場景、形象、驅動技術、平臺能力、安全能力提出規(guī)范要求。適用于廣播電視和網(wǎng)絡視聽行業(yè)數(shù)字虛擬人的系統(tǒng)建設、創(chuàng)作和應用。
按照文件中定義,數(shù)字虛擬人即基于現(xiàn)實世界設計,通過計算機生成,再借助真人或計算驅動,在多模態(tài)輸出設備呈現(xiàn)的虛擬人物。
按照人物形象分類,分為2D數(shù)字虛擬人和3D數(shù)字虛擬人;按照交互模式分類,分為非交互式數(shù)字虛擬人和交互式數(shù)字虛擬人;按照驅動模式分類,分為算法驅動型數(shù)字虛擬人和真人驅動型數(shù)字虛擬人。
數(shù)字虛擬人主要應用場景分為內容播報、交互客服、虛擬演播和內容創(chuàng)作等。其中內容播報包含新聞資訊播報/手語播報、電影/電視/專題片/紀錄片介紹和直播帶貨等;交互客服包含虛擬客服、智能助手和交互問答等;虛擬演播包含綜藝主持、虛擬演唱會、文娛活動和用戶代理虛擬分身等;內容創(chuàng)作包含影視創(chuàng)作、視頻創(chuàng)作、廣告創(chuàng)作和游戲創(chuàng)作等。
總體技術架構包括數(shù)字虛擬人形象、算法驅動能力、真人驅動能力、平臺能力和安全能力等內容。數(shù)字虛擬人形象包括2D真人、2D卡通、3D寫實、3D卡通和建模技術。算法驅動包括驅動能力、合成能力和多模態(tài)能力。其中,驅動能力又分為文本驅動能力、語音驅動能力和視頻驅動能力;合成能力包含語音合成能力和視頻合成能力;多模態(tài)能力包含語音識別能力和自然語言處理能力。
總體要求中,數(shù)字虛擬人形象,應滿足如下要求:
a) 符合場景的任務設定,在人物形象、表情、服飾等方面得體、美觀;
b) 支持全身、大半身、半身不同景別姿態(tài);
c) 形象完好,不存在扭曲、馬賽克、跳幀、破損、音視頻延時、口唇不一致等情況;
d) 支持裝扮、服飾的更換;
e) 不存在侵犯第三方權利及法律法規(guī)禁止的其他情形。
2D真人數(shù)字虛擬人形象方面,支持真人形象復刻,形象逼真自然,語音自然流暢;支持通過照片、視頻等方式生成形象,保證面部五官、膚色、牙齒、明暗等準確還原。2D卡通數(shù)字虛擬人形象,應支持2D卡通形象繪制,對特有的卡通形象進行建模;支持不同景別、姿態(tài),形象靈動活潑,動作自然舒展。
3D寫實數(shù)字虛擬人形象,應支持通過3D建;蛘嫒藪呙璧确绞娇坍嬓蜗,頭部模型覆蓋面部、口腔、上下牙、舌頭、獨立左右眼球、眼瞼、淚腺等;頭部、面部、身體紋理有效區(qū)域面積高;毛發(fā)系統(tǒng),如頭發(fā)、睫毛、面部絨毛等紋理清晰。支持對形象的美型、加工和風格化等;支持不同角度、景別、姿態(tài)的靈活轉換;支持豐富的動作類型;支持光照效果的處理,如光影、折射、反射等效果;支持人形骨骼、蒙皮建模;支持按1:1的比例,對真人進行復刻。3D卡通數(shù)字虛擬人形象,應支持3D卡通形象繪制等方式,對特有的卡通形象進行建模;支持不同景別、角度、姿態(tài),形象靈動活潑,動作自然舒展;支持豐富的動作類型。
數(shù)字虛擬人算法驅動能力方面,應支持單一技術驅動和混合技術驅動的方式;數(shù)字虛擬人展示應支持端側渲染,宜兼容多操作系統(tǒng)。
數(shù)字虛擬人視頻驅動能力,應支持計算機視覺算法,基于記錄面部表情和肢體動作的視頻,驅動生成數(shù)字虛擬人的語音、動作、表情、口型;支持的視頻包括通過攝像頭記錄人體面部表情、肢體動作的視頻;支持實時或離線的驅動方式。
數(shù)字虛擬人語音合成能力,應支持端到端語音合成模型,支持HiFi-GAN、VAE、Diffusion(擴散模型)、Glow(流生成模型)、DurIAN等多種語音合成模型;音合成效果自然,音質音效貼近真人;實現(xiàn)字詞級別的音量、時長的細粒度控制,實現(xiàn)音量、語速的調節(jié);實現(xiàn)多情感高表現(xiàn)力的可控語音合成效果,根據(jù)文本內容自動切換合成不同情感的語音;支持針對應用場景(包括播報、解說、詩歌、閱讀、客服等),生成多種語音合成風格。
數(shù)字虛擬人視頻合成能力,應支持多種渲染引擎技術對數(shù)字虛擬人形象進行渲染,包括UE、Unity等;支持圖像增強技術,改善視頻質量和用戶體驗;支持視頻離線合成或實時渲染合成;支持通過人臉的圖像或視頻內容進行視頻合成;支持不同分辨率、碼率的視頻合成;在1080P分辨率條件下,視頻合成實時率不高于1;合成后的視頻流暢,支持幀率不小于25FPS。
數(shù)字虛擬人多模態(tài)能力,應發(fā)音準確,不存在漏音吞音、多余發(fā)音、音素錯誤、音調錯誤等情況;語速、停頓斷句、音高、音長、音量、重音等符合自然語言發(fā)音規(guī)律;語音語調舒適;常見多音字發(fā)音正確?谛、唇形自然,與發(fā)音同步,符合發(fā)音的規(guī)律,具備飽滿度和表現(xiàn)力。動作精準、自然,與交互語境契合,動作包括但不限于頭部、肢體、全身等部位。支持實時渲染技術,支持基于物理光照和實際環(huán)境光源、相機位置、材質參數(shù)等實時計算,完成圖像渲染。在交互客服場景下,支持多輪對話能力,根據(jù)上下文內容或用戶的問詢,進行判斷選擇,完成用戶交互;支持通過對話樹等方式,完成不同業(yè)務場景下的多輪對話流程跳轉及應答。
數(shù)字虛擬人平臺,應支持針對內容播報、交互客服、虛擬演播、內容創(chuàng)作等應用場景;支持創(chuàng)作不同類型的數(shù)字虛擬人;支持數(shù)字虛擬人形象的資產(chǎn)管理、業(yè)務服務配置及內容生產(chǎn)服務;支持數(shù)字虛擬人形象租賃;支持數(shù)字虛擬人形象選型、音色配置、背景空間管理、發(fā)音及動作配置、會話管理、流程管理等功能;支持多種AI模型和算法;平臺生成的數(shù)字虛擬人具備多模態(tài)交互能力;具備豐富的語音及動作庫;支持離線、實時的數(shù)字虛擬人生成方式;真人驅動型平臺技術支持真人驅動的模式,真人驅動可以和算法驅動混合使用,相互接管。
數(shù)字虛擬人平臺部署,應支持公有云部署、私有云部署或本地化部署方式;應支持多類型前端接入能力,包括但不限于PC、移動終端、大屏設備等終端接入設備,以及網(wǎng)頁、APP、小程序、H5等應用形式,滿足系統(tǒng)的前端兼容性;宜支持運用微服務、集群的部署方式;宜采用負載均衡、分布式數(shù)據(jù)庫等技術。