數(shù)字分身賦能內(nèi)容創(chuàng)作 【一視同人】一鍵實現(xiàn)文字轉(zhuǎn)音視頻
2022年4月,倒映有聲(杭州倒映有聲科技有限公司)旗下數(shù)字分身內(nèi)容創(chuàng)作平臺【一視同人】完成3.0版本升級。只需輸入文字,就可以在該平臺上利用數(shù)字分身IP生成音頻和視頻,從而賦能內(nèi)容創(chuàng)作,是國內(nèi)首個TTSA(基于文本和語音合成實時生成音頻和視頻)技術(shù)落地應(yīng)用平臺。【一視同人】數(shù)字分身內(nèi)容創(chuàng)作平臺既有知名人士數(shù)字分身IP、也有大量通用服務(wù)型數(shù)字分身IP以及動漫類數(shù)字分身IP供用戶選擇,用戶無需拍攝、錄制、剪輯,就可以在平臺上一鍵實現(xiàn)文字到音頻和視頻內(nèi)容的轉(zhuǎn)化。
一鍵實現(xiàn)文字轉(zhuǎn)音視頻 賦能內(nèi)容創(chuàng)作
在各大巨頭紛紛布局元宇宙、虛擬數(shù)字人概念的時候,尋找可實現(xiàn)場景化落地的技術(shù)與工具產(chǎn)品,成為了掘金千億藍海市場的“定海神針”。早在2019年倒映有聲團隊就已經(jīng)研發(fā)并上線了相關(guān)落地應(yīng)用平臺;2021年5月開放文字轉(zhuǎn)音頻功能投入市場,獲得業(yè)內(nèi)頭部企業(yè)用戶交口稱贊;因市場時機契合與行業(yè)需求井噴,【一視同人】數(shù)字分身內(nèi)容創(chuàng)作平臺的文字轉(zhuǎn)視頻功能于近日面對用戶開放,滿足用戶多種風(fēng)格內(nèi)容制作需求。
傳統(tǒng)的音視頻內(nèi)容制作,需要涉及腳本撰寫、錄音或攝像設(shè)備支持、配音員或演員參與錄制、專業(yè)人員現(xiàn)場拍攝、音視頻剪輯等環(huán)節(jié),至少需要一個團隊配合來完成,制作單支音頻或視頻的時間成本與財務(wù)成本均較高。在【一視同人】數(shù)字分身內(nèi)容創(chuàng)作平臺,只需上傳文字,選擇風(fēng)格匹配的數(shù)字分身IP,就可以生成帶有生動形象的視頻,覆蓋內(nèi)容播講、直播帶貨、品牌宣傳等諸多場景。一個運營者就可以完成從音視頻策劃到輸出的環(huán)節(jié),既提高了內(nèi)容制作效率,又降低了制作成本,充分滿足互聯(lián)網(wǎng)時代對內(nèi)容制作時效性的高頻需求。同時,用戶可以在線完成支付流程,智能便捷化操作更進一步將【一視同人】的平臺屬性放大。
自研TTSA技術(shù)國內(nèi)首落地應(yīng)用以數(shù)字分身構(gòu)建虛擬世界基礎(chǔ)
數(shù)字分身(Avatar)與虛擬人(Virtual Human)略有概念和制作技術(shù)上的不同。虛擬人在現(xiàn)實世界中并不存在,其身份、性格、行為特點均是虛構(gòu)的,它所呈現(xiàn)的外觀和行為是對人類的模仿。關(guān)于數(shù)字分身的技術(shù)邏輯,倒映有聲創(chuàng)始人兼CEO肖朔介紹說,在【一視同人】數(shù)字分身內(nèi)容創(chuàng)作平臺上的數(shù)字分身IP(除動漫類IP之外),是對現(xiàn)實世界中人物聲音與形象的復(fù)刻;通過倒映有聲的技術(shù)“四駕馬車”——TTSA(基于文本和語音合成實時生成音頻和視頻)、ETTS(富情感語音合成)、NLU(自然語言理解)、Digital Twins(數(shù)字孿生),僅需15分鐘音畫同步數(shù)據(jù),就可以實現(xiàn)數(shù)字分身打造;而數(shù)字分身的身份與人設(shè)設(shè)定,既可以是完全復(fù)刻現(xiàn)實世界的人物,也可以進行一定藝術(shù)化包裝;與現(xiàn)實世界擁有映射關(guān)系的數(shù)字分身,是構(gòu)成和通往虛擬世界的基礎(chǔ)。
倒映有聲自研的TTSA(Text to Speech & Animation)技術(shù)即基于文本和語音合成實時生成音頻和視頻,具有文本語音雙驅(qū)動、更加擬真、多模態(tài)交互三大特性,最終實現(xiàn)數(shù)字分身的音畫生成,自主驅(qū)動和交互。通過語音+圖像生成技術(shù),并結(jié)合自然語言理解技術(shù),生成數(shù)字分身的唇形、表情、動作、肢體姿態(tài),創(chuàng)造自然、流暢、高擬真度的數(shù)字分身IP。
在【一視同人】數(shù)字分身內(nèi)容創(chuàng)作平臺上的數(shù)字分身IP,既能實現(xiàn)有情感的語音,也能做出自然的嘴型表達,并做出細節(jié)表情:高興、憤怒、生氣、沮喪等,實現(xiàn)面部五官的靈動表達。同時,根據(jù)語義理解,可以在交流中配合語音表達,做出豐富的肢體動作,如揮手、攤手、點頭、皺眉等,解決當(dāng)下虛擬數(shù)字人表情肢體僵硬、單一的問題,更加接近真人。用戶可通過語音、文本、攝像頭等多種方式,和數(shù)字分身進行交互;同時數(shù)字分身也會通過語音、文本、視頻動畫等多種方式進行交互反饋,可以適配更多的場景和應(yīng)用。
布局?jǐn)?shù)字分身IP生態(tài) 高擬人交互落地更多應(yīng)用場景
據(jù)倒映有聲創(chuàng)始人兼CEO肖朔介紹,【一視同人】數(shù)字分身內(nèi)容創(chuàng)作平臺將陸續(xù)開放兩大能力:交互能力與數(shù)字分身IP自助制作能力,最終構(gòu)建一個完整的數(shù)字分身IP生態(tài)。用戶除了在平臺上完成內(nèi)容創(chuàng)作、產(chǎn)出播報型內(nèi)容之外,還能利用數(shù)字分身實現(xiàn)交互,從而落地電商帶貨、客戶服務(wù)、市場廣告營銷等應(yīng)用場景。另外,用戶也可以在平臺上完成數(shù)字分身自助制作,只需極短時間即可打造個性專屬數(shù)字分身,接軌虛擬世界的同時,在平臺上實現(xiàn)數(shù)字分身IP交易。
據(jù)了解,倒映有聲(杭州倒映有聲科技有限公司)是一家以技術(shù)為核心的創(chuàng)新型公司和無人驅(qū)動數(shù)字分身技術(shù)解決方案供應(yīng)商,通過獨創(chuàng)TTSA技術(shù),基于文本實時生成高質(zhì)量語音(音頻)和動畫(視頻),實現(xiàn)無人驅(qū)動數(shù)字分身的行業(yè)技術(shù)突破。倒映有聲旗下?lián)碛小疽灰曂恕繑?shù)字分身內(nèi)容創(chuàng)作平臺和有聲讀物制作交易平臺等應(yīng)用產(chǎn)品平臺,覆蓋媒體播報、有聲讀物制作、互動游戲、虛擬直播、娛樂等應(yīng)用場景,滿足用戶降本增效的需求,促進企業(yè)業(yè)務(wù)形態(tài)創(chuàng)新和增長,構(gòu)建以無人驅(qū)動數(shù)字分身為載體的虛擬世界新生態(tài)。
根據(jù)量子位《虛擬數(shù)字人深度產(chǎn)業(yè)報告》數(shù)據(jù)預(yù)計,到2030年我國虛擬人整體市場規(guī)模將達到2703億元人民幣。【一視同人】數(shù)字分身內(nèi)容創(chuàng)作平臺的出現(xiàn),既實現(xiàn)了TTSA技術(shù)的國內(nèi)首次落地應(yīng)用,拉近大眾與虛擬世界的距離,也是其背后的團隊倒映有聲在千億藍海市場中為自己開辟的一條快車道。