您當(dāng)前的位置：中醫(yī)名師網(wǎng) > 快訊

字節(jié)跳動(dòng)，重磅發(fā)布！

來源：證券之星閱讀量：5927 時(shí)間：2025-02-06 17:14

導(dǎo)讀字節(jié)跳動(dòng)推OmniHuman:可從單張照片生成逼真全身動(dòng)態(tài)視頻初創(chuàng)公司掀起AI浪潮的同時(shí)，頭部互聯(lián)網(wǎng)企業(yè)在AI賽道的步伐同樣沒有停歇！字節(jié)推出全新AI數(shù)字人模型字節(jié)跳動(dòng)公司研究人員開發(fā)了一種名為OmniHuman-1的人工智能模...

字節(jié)跳動(dòng)推OmniHuman:可從單張照片生成逼真全身動(dòng)態(tài)視頻

初創(chuàng)公司掀起AI浪潮的同時(shí)，頭部互聯(lián)網(wǎng)企業(yè)在AI賽道的步伐同樣沒有停歇！

字節(jié)推出全新AI數(shù)字人模型

字節(jié)跳動(dòng)公司研究人員開發(fā)了一種名為OmniHuman-1的人工智能模型，能夠從單張圖像生成逼真全身動(dòng)態(tài)視頻，效果令人驚嘆。

其支持各種不同類型輸入，生成非常逼真的真人視頻動(dòng)畫，涵蓋從面部表情到全身動(dòng)作，無論是說話、唱歌、跳舞等，超越了以往僅能動(dòng)畫面部或上半身的AI模型。

據(jù)了解，該模型采用基于DiT架構(gòu)的多模態(tài)運(yùn)動(dòng)條件混合訓(xùn)練策略，解決高質(zhì)量數(shù)據(jù)稀缺問題。這項(xiàng)技術(shù)的核心在于，它結(jié)合了文本、音頻和人體動(dòng)作等多種輸入，通過一種稱為“全條件”訓(xùn)練的創(chuàng)新方法，使得AI能夠從更大、更豐富的數(shù)據(jù)集中學(xué)習(xí)。

從評(píng)測(cè)結(jié)果而言，通過與多個(gè)已存在的模型定量對(duì)比，OmniHuman算法在多項(xiàng)評(píng)估指標(biāo)上展現(xiàn)出顯著優(yōu)勢(shì)。

研究團(tuán)隊(duì)指出，OmniHuman經(jīng)過超過18700小時(shí)的人類視頻數(shù)據(jù)訓(xùn)練，表現(xiàn)出了顯著的進(jìn)步。通過引入多種條件信號(hào)，這項(xiàng)技術(shù)不僅提升了視頻生成的質(zhì)量，還有效減少了數(shù)據(jù)的浪費(fèi)。

“OmniHuman通過引入多模態(tài)條件驅(qū)動(dòng)和全條件訓(xùn)練策略，成功解決了人類動(dòng)畫生成領(lǐng)域長(zhǎng)期存在的數(shù)據(jù)擴(kuò)展和泛化能力問題。這一發(fā)展出現(xiàn)在AI視頻生成技術(shù)競(jìng)爭(zhēng)日益激烈的背景下，谷歌、Meta和微軟等公司也在積極追逐類似技術(shù)。”有業(yè)內(nèi)人士指出。

數(shù)字人規(guī)模明年或?qū)⑦_(dá)百億元

當(dāng)下，全球數(shù)字人進(jìn)入高產(chǎn)時(shí)代，相關(guān)產(chǎn)業(yè)規(guī)模不斷擴(kuò)大，互聯(lián)網(wǎng)巨頭紛紛下場(chǎng)布局。

目前，除百度、騰訊、阿里巴巴等互聯(lián)網(wǎng)公司，華為云、京東云、字節(jié)跳動(dòng)、科大訊飛、商湯科技、小冰公司等廠商都已參與到虛擬數(shù)字人生產(chǎn)中。

天眼查數(shù)據(jù)顯示，截至2024年9月底，中國(guó)與數(shù)字人相關(guān)的企業(yè)數(shù)量已達(dá)114.4萬(wàn)家，僅2024年前五個(gè)月就新增注冊(cè)企業(yè)17.4萬(wàn)余家，顯示出數(shù)字人產(chǎn)業(yè)的市場(chǎng)潛力與活力。

浙商證券認(rèn)為，數(shù)字人有望成為AI大模型的服務(wù)入口，在幫助企業(yè)實(shí)現(xiàn)降本增效的同時(shí)，實(shí)現(xiàn)toB服務(wù)在toC側(cè)的變現(xiàn)閉環(huán)。

IDC最新發(fā)布的報(bào)告顯示，中國(guó)虛擬數(shù)字人市場(chǎng)規(guī)模呈現(xiàn)高速增長(zhǎng)趨勢(shì)，預(yù)計(jì)到2026年將達(dá)102.4億元。

智研咨詢認(rèn)為，隨著AI技術(shù)不斷進(jìn)步，智能驅(qū)動(dòng)型虛擬數(shù)字人將成為市場(chǎng)主流。虛擬數(shù)字人的擬人化程度為其核心特征及競(jìng)爭(zhēng)力所在，虛擬數(shù)字人包括真人驅(qū)動(dòng)型與人工智能驅(qū)動(dòng)型，其中真人驅(qū)動(dòng)型虛擬數(shù)字人仍離不開現(xiàn)實(shí)真人，其動(dòng)作捕捉、音視頻合成等均需要中之人配合完成，擬人化程度更高。目前智能驅(qū)動(dòng)型虛擬數(shù)字人受限于技術(shù)、設(shè)備因素，擬人逼真程度不及真人驅(qū)動(dòng)型。

未來隨著自然語(yǔ)言處理、深度學(xué)習(xí)算法等AI技術(shù)的不斷發(fā)展與突破，智能驅(qū)動(dòng)型虛擬數(shù)字人感知能力、表達(dá)能力與認(rèn)知能力都將得到大幅提升，且成本也將進(jìn)一步下滑。

在性能與成本優(yōu)勢(shì)不斷顯現(xiàn)下，能夠?qū)崿F(xiàn)自我認(rèn)知和進(jìn)化的智能驅(qū)動(dòng)型虛擬數(shù)字人將逐步取代真人驅(qū)動(dòng)型虛擬數(shù)字人，成為市場(chǎng)主流，廣泛地應(yīng)用在各個(gè)領(lǐng)域。尤其是AIGC技術(shù)的興起，將助力智能驅(qū)動(dòng)型數(shù)字人個(gè)性化定制及智能化交互能力再上新臺(tái)階。

編輯:江右校對(duì):王玥制作:黃梅審核:木魚

版權(quán)聲明

免責(zé)聲明：該文章系本站轉(zhuǎn)載，旨在為讀者提供更多信息資訊。所涉內(nèi)容不構(gòu)成投資、消費(fèi)建議，僅供讀者參考。

熱文推薦