12月12日,AI視頻生成公司Runway正式發(fā)布其首個(gè)通用世界模型GWM-1,并同步升級(jí)視頻生成模型Gen-4.5。GWM-1基于Gen-4.5構(gòu)建,采用自回歸架構(gòu)逐幀生成視頻,能夠通過(guò)逐幀預(yù)測(cè)構(gòu)建理解物理規(guī)律與時(shí)間演化的動(dòng)態(tài)仿真環(huán)境。該模型支持通過(guò)攝像機(jī)姿態(tài)、機(jī)器人指令、音頻等動(dòng)作進(jìn)行交互式控制,標(biāo)志著AI從被動(dòng)生成向主動(dòng)模擬的轉(zhuǎn)變。GWM-1包含三個(gè)專業(yè)化分支:GWM-Worlds用于創(chuàng)建可探索的交互式環(huán)境,能夠?qū)崟r(shí)模擬無(wú)限、連貫的虛擬世界,支持24幀/秒、720p分辨率的動(dòng)態(tài)生成;GWM-Robotics作為學(xué)習(xí)型模擬器,通過(guò)合成數(shù)據(jù)模擬天氣變化、動(dòng)態(tài)障礙物等復(fù)雜變量,幫助機(jī)器人在高風(fēng)險(xiǎn)場(chǎng)景中預(yù)演行為;GWM-Avatars則專注于生成具備真實(shí)人類行為邏輯的數(shù)字人,在長(zhǎng)時(shí)對(duì)話中穩(wěn)定呈現(xiàn)自然的面部表情、眼球運(yùn)動(dòng)、口型同步和手勢(shì)。與此同時(shí),Runway對(duì)Gen-4.5視頻生成模型進(jìn)行了重大升級(jí),新增原生音頻生成與編輯、多鏡頭視頻編輯等功能。新版本支持生成一分鐘以內(nèi)、角色連貫的復(fù)雜視頻,并能保持角色一致性、添加原生對(duì)話和背景音效。用戶可對(duì)已有視頻的音頻進(jìn)行精細(xì)編輯,或?qū)θ我忾L(zhǎng)度的多鏡頭作品進(jìn)行微調(diào)。在Video Arena排行榜上,Gen-4.5以1247分超越谷歌Veo 3和OpenAI Sora 2 Pro,成為當(dāng)前評(píng)分最高的文生視頻模型。Runway首席技術(shù)官Anastasis Germanidis在直播中表示:"要構(gòu)建世界模型,首先需要構(gòu)建一個(gè)真正卓越的視頻模型。我們相信,直接預(yù)測(cè)像素是實(shí)現(xiàn)通用模擬的最佳路徑。"公司強(qiáng)調(diào),盡管目前三個(gè)分支在技術(shù)上獨(dú)立,但最終目標(biāo)是將它們?nèi)诤蠟榻y(tǒng)一的通用世界模型。Runway已計(jì)劃通過(guò)SDK向合作伙伴開(kāi)放GWM-Robotics模塊,目前正與多家機(jī)器人制造企業(yè)進(jìn)行深度接洽。(來(lái)源于網(wǎng)絡(luò))