公司新聞 Company News
冬奧手語播報數(shù)字人正式上線,凌云光數(shù)字人技術(shù)加持
點擊次數(shù):1047 更新時間:2022-03-08
2022年2月4日,四季初始,佳期如許。第24屆冬奧會在北京盛大開幕。世界目光再次聚焦北京,世界期待中國,中國做好了準備。北京冬奧會始終秉持綠色、共享、開放、廉潔的辦奧理念,凝聚中國科技力量,展示大國風范,共同參與、共同享有,面向世界、面向未來,為世界奉獻一場精彩、非凡的盛會。
冬奧手語播報數(shù)字人——科技與人文的結(jié)合!
我國有超2700萬聽障人群,他們與健聽人一樣,對教育、社交、娛樂、信息獲取都有巨大的需求量。電視媒體作為大眾傳播媒介,是普及傳播通道。但傳統(tǒng)人工手語翻譯工作量大,且主持人和手語主持人配合難度*。為了讓聽障人士能平等便利地享受冬奧盛會,北京電視臺上線這樣一位智能手語播報數(shù)字人,她僅用3個多月時間完成了近10萬條手語語料學習,翻譯準確率高達90%,在北京新聞和北京您早等節(jié)目中進行冬奧專題手語播報,為聽障人士帶來精彩冬奧賽事播報。
手語動作表情復雜,語序與正常語序差異大,正常情況下想要熟練掌握手語大約需要2年左右的時間,且還要結(jié)合語境進行猜測,她是如何做到的呢?
這歸功于智能數(shù)字人技術(shù)的進步。
冬奧手語播報數(shù)字人系統(tǒng)是由北京市科委科技冬奧專班委托,凌云光、智譜AI和北京廣播電視臺聯(lián)合打造,北京市殘疾人聯(lián)合會和市殘聯(lián)聾人協(xié)會的大力支持,在冬奧會期間,手語播報數(shù)字人在北京電視臺冬奧專題節(jié)目上提供賽事專題播報,方便聽障人士收看冬奧報道。
今天讓我們一起來扒一扒冬奧手語播報數(shù)字人背后的技術(shù)創(chuàng)新。
高精度多模態(tài)的手語語料采集方案
創(chuàng)建10萬條高質(zhì)量冬奧手語語料庫
近年來人工智能體系建設(shè)重點布局在算法層和應用層,數(shù)據(jù)層建設(shè)遠遠不足,尤其針對數(shù)字人相關(guān)產(chǎn)業(yè),底層數(shù)據(jù)庫的數(shù)量、質(zhì)量和開源程度還明顯不足。國內(nèi)現(xiàn)有的手語語料數(shù)據(jù)庫數(shù)量少,且多以圖像、視頻等二維平面為主,無法滿足AI訓練的需求。因手語手語語序與中文語序差異大,方言分化也更加復雜,且需要通過表情、口型、動作等方式來傳達信息。除了傳統(tǒng)的二維平面圖像、視頻采集,三維肢體運動、表情信息數(shù)據(jù)采集及結(jié)構(gòu)化參數(shù)表達。手語作為肢體、手勢、表情全面信息載體,手語語料數(shù)據(jù)庫建設(shè)對三維運動信息捕捉需求更為明顯。
凌云光多模態(tài)手語語料采集方案,集成高精度人臉人體重建、動作捕捉、面部表情捕捉、手指捕捉等技術(shù),可實現(xiàn)二維\三維肢體動作、表情、手指等手語語料高效同步采集。在3個月時間內(nèi),完成10萬條高質(zhì)量手語語料庫建設(shè)。同時充分調(diào)研2022北京冬奧專用手語術(shù)語,聯(lián)合北京市殘聯(lián)、聾人協(xié)會等相關(guān)組織機構(gòu),進行數(shù)據(jù)標注,建設(shè)手語語義映射關(guān)系,大大完善了國內(nèi)手語數(shù)據(jù)庫的建設(shè),為手語推廣和AI研究留下了寶貴的數(shù)據(jù)資產(chǎn)。
AI手語數(shù)字腦,智能提取關(guān)鍵語義,
自動生成手語語序,準確率高
手語數(shù)字腦就是用計算機模仿聽障人士的大腦,基于“悟道2.0”超大規(guī)模人工智能模型的技術(shù)支撐,將看到的中文文本信息轉(zhuǎn)換成手語詞匯序列,主要包括中文語義蒸餾模型和AI手語分詞快編算法的研究。其中中文語義蒸餾模型用于從輸入的文稿或文本中提取出關(guān)鍵的語義信息,將中文文本語義提煉和精簡,形成精準匹配適合手語表達的文本。AI手語分詞快編算法用于將蒸餾得到的中文文本根據(jù)冬奧手語語料庫,劃分成相應的手語詞匯序列,供數(shù)字人做表達的輸入。
跨模態(tài)擬人生成算法,將手語語序列
生成對應擬人的動作、手勢、表情,
表達自然地道,更加易懂。
#FormatImgID_0#
數(shù)字人是冬奧手語播報的載體和展現(xiàn)形式,通過凌云光高精度寫實數(shù)字人全流程制作方案,可實現(xiàn)一鍵數(shù)字建模,高度還原真人發(fā)膚,毛孔級細節(jié)重現(xiàn),更加真實親切。通過跨模態(tài)擬人生成算法,可以將手語詞匯序列,生成相應的動作信息,驅(qū)動數(shù)字人模型做出相應的動作、手勢和表情。此算法能夠兼顧短時相鄰手勢動作的連貫性和長時手勢動作的語義完整性和一致性,支持正常語速驅(qū)動,動作表情自然流暢。
科技讓生活更美好。冬奧手語播報數(shù)字人,讓聽障人士能平等、方便、無障礙的享受冬奧盛會,未來將會在更多場所提供更便捷服務。凌云光也將持續(xù)攀登科學高峰,推動產(chǎn)業(yè)創(chuàng)新,服務回報社會。