夢(mèng)瑤 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
壞了,阿里這波是沖著Sora 2去的!
剛剛,阿里發(fā)布了新一代通義萬相2.6系列模型,一次性覆蓋文生視頻、圖生視頻、參考生視頻,以及圖像生成和文生圖,是目前全球功能最全的視頻生成模型。
在視頻創(chuàng)作上,萬相2.6不僅推出了Sora2目前還沒有的多音頻驅(qū)動(dòng)生視頻能力,還同步引入了音畫同步、多鏡頭敘事等能力。
像下面這個(gè)超火的一刀切ASMR,就是通過文本+音頻直接驅(qū)動(dòng)出來的:
再看這個(gè)由文本+圖像+音頻驅(qū)動(dòng)的小貓沉浸式吃播,咀嚼聲和嘴部動(dòng)作基本能卡在點(diǎn)上,吃得那叫一個(gè)香:
文生圖這條線也同步補(bǔ)強(qiáng)了,萬相2.6在藝術(shù)風(fēng)格控制、真實(shí)感人像、中英文長(zhǎng)文本生圖以及歷史文化IP語義理解等方面的創(chuàng)作能力也都有明顯提升,效果be like:

本著啥都測(cè)測(cè)的原則,我也專門用不同Prompt和參考素材實(shí)測(cè)了一輪,總的來說:
萬相2.6在音視頻參考、聲畫同步、風(fēng)格理解方面表現(xiàn)確實(shí)不錯(cuò),但在個(gè)別場(chǎng)景下仍會(huì)出現(xiàn)畫面邏輯偏差的小問題,不過對(duì)日常短視頻和二創(chuàng)來講,已經(jīng)是可用且好用的水平了。
模型到底表現(xiàn)如何,咱們邊嘮邊測(cè)~
視頻生成能力一手實(shí)測(cè)
實(shí)測(cè)之前,我先幫大家快速捋一下這次萬相2.6在視頻生成上的幾個(gè)核心升級(jí)點(diǎn):
視頻參考生成:支持視頻參考,模型能提取其中主體的外觀與音色,并結(jié)合提示詞生成新視頻內(nèi)容,可用于單人表演或雙人合拍等場(chǎng)景。
多鏡頭敘事:支持多鏡頭生成,保持鏡頭間關(guān)鍵信息一致,可通過簡(jiǎn)單提示詞完成分鏡。
自然聲畫同步:在多人對(duì)話等復(fù)雜場(chǎng)景中,語音與動(dòng)作匹配更穩(wěn)定。
15s長(zhǎng)視頻生成:?jiǎn)螚l視頻最長(zhǎng)15秒(參考生視頻最長(zhǎng)10秒)。
基礎(chǔ)能力提升:在指令理解與執(zhí)行、畫面真實(shí)度及整體美學(xué)表現(xiàn)等方面均有加強(qiáng)。
嘖嘖嘖,說實(shí)話這次更新的能力維度確實(shí)蠻多,模型到底能不能打,咱們一一測(cè)測(cè)看?。?!

先來測(cè)這次升級(jí)中我自認(rèn)為最大的看頭——視頻參考生成功能。
這不最近快到年底了,各路短視頻主播都在摩拳擦掌準(zhǔn)備沖一波年終銷量,我索性腦洞一開,直接把一段梵高的視頻喂給了萬相2.6,讓梵高也趁年底一起沖一波KPI!

咱從主體一致性和聲音一致性兩個(gè)點(diǎn)來看效果。
整體表現(xiàn)是值得肯定的,萬相2.6在視頻主體一致性和提示詞理解上確實(shí)做得比較扎實(shí),梵高形象基本實(shí)現(xiàn)了1:1還原,口型匹配也較為準(zhǔn)確,人物的動(dòng)作、表情與臺(tái)詞語義能夠?qū)?yīng)得上,整體觀感比較完整~
唯一的小瑕疵在聲音上,生成結(jié)果中的聲線并沒有完全沿用原視頻,有點(diǎn)AI自由發(fā)揮的意思。
咱們?cè)賮碓囋嚶暜嬐侥芰Γ罱?chuàng)兵馬俑的AI玩法視頻超級(jí)火,咱這次直接給萬相2.6上點(diǎn)難度,讓它roll一段雙人劇情演繹的兵馬俑對(duì)話小視頻,看看效果咋樣!

從下面生成的效果看,確實(shí)喜感滿滿,兩尊兵馬俑在相互推搡的同時(shí)進(jìn)行對(duì)話,動(dòng)作與語言形成了較為完整的互動(dòng)。
頗有趣味的是,兩尊兵馬俑一邊推搡一邊對(duì)話,動(dòng)作和語言形成了完整互動(dòng),更關(guān)鍵的是,模型不僅補(bǔ)全了臺(tái)詞,還加了和動(dòng)作匹配的擬聲細(xì)節(jié),并能區(qū)分不同角色的情感變化,“憤怒感”的情緒還是立得住的~
再來玩點(diǎn)有意思的,這回我給了萬相2.6一段小貓小狗對(duì)話的臺(tái)詞,讓它幫我生成一段相聲表演,效果be like:
整體來講,聲畫同步效果確實(shí)做到位了,但也暴露了一些小bug:比如小貓說了本該是小狗的臺(tái)詞,最后一個(gè)鏡頭字幕和語音沒完全對(duì)齊,模型在多角色綁定上還有提升空間。
除了音視頻參考和聲畫同步能力外,萬相2.6在畫面質(zhì)感和美學(xué)呈現(xiàn)方面也有了不少提升,比如下面這段我生成的第一人稱賽博城市飛行視角的視頻:
第一人稱視角,無人機(jī)高速飛行視角,夜晚賽博朋克城市,密集高樓林立,霓虹燈與全息廣告在兩側(cè)快速掠過。鏡頭低空穿行于城市街道與高架之間,連續(xù)急轉(zhuǎn)彎、俯沖與拉升動(dòng)作,掠過懸浮屏幕、樓宇天橋與空中管線。城市燈光在鏡頭邊緣產(chǎn)生運(yùn)動(dòng)模糊,玻璃幕墻反射出飛行軌跡,雨后路面泛起冷色反光。整體節(jié)奏緊湊、速度感強(qiáng),畫面穩(wěn)定但具有真實(shí)飛行慣性,科幻感強(qiáng)烈,偏冷色調(diào),高對(duì)比度,電影級(jí)畫面質(zhì)感。
從視頻生成效果看,飛行視角、快速掠過、急轉(zhuǎn)彎、俯沖拉升這些關(guān)鍵詞都呈現(xiàn)到位了,而且確實(shí)賽博感滿滿,有點(diǎn)末日大片的感覺,看來這AI還是有點(diǎn)美學(xué)天賦的。
最后我們來測(cè)一把萬相2.6的多鏡頭敘事能力,這次我交代給AI的任務(wù)是讓它生成一個(gè)包含3個(gè)鏡頭的多動(dòng)作劇情視頻:

從生成效果來看,萬相2.6對(duì)多鏡頭敘事的理解較為到位,三個(gè)鏡頭中的主要?jiǎng)幼骱娃D(zhuǎn)場(chǎng)均得到了完整呈現(xiàn),鏡頭之間的銜接也相對(duì)自然,并未出現(xiàn)明顯生硬的跳切。
但由于提示詞中對(duì)具體場(chǎng)景描述不夠充分,像「探頭觀察」這類較為抽象的動(dòng)作,對(duì)模型來說仍存在一定理解難度,以至于大家會(huì)發(fā)現(xiàn)視頻中的男子是對(duì)著墻面觀察的,還是有點(diǎn)不太符合正常人的動(dòng)作邏輯,大家在寫多鏡提示詞時(shí)可以多給AI一些補(bǔ)充信息~
圖片美學(xué)也上了一個(gè)level
除了視頻能力外,這次萬相2.6在圖片生成功能在美學(xué)理解、人像生成、文字處理、歷史文化&知識(shí)ip語義理解上也帶來了一些新升級(jí)。
咱們先來說說風(fēng)格化能力,其實(shí)風(fēng)格化生成對(duì)于AI來說不是難事,但難就難在AI能不能及時(shí)掌握一些新的美學(xué)風(fēng)格。
最近我在社交軟件上刷到星露谷風(fēng)格插畫很火,我們也讓萬相2.6做個(gè)同款風(fēng)格的插畫看看效果~
星露谷風(fēng)格,地鐵上坐滿站滿了各種打工人,有的人忙著用電腦打字,有的人忙著打電話,有的忙著聽音樂等等,展現(xiàn)出不同的車廂人物狀態(tài)。

高飽和的色塊拼接、稍許像素風(fēng)的處理確實(shí)有星露谷內(nèi)味兒了,而且還有點(diǎn)像最近短視頻特火的蒸汽波風(fēng)插畫vlog~
再來試試「人像生成」能力,官方介紹說這次萬相2.6在人像光影方面的處理也更好了,我們來roll一把!
年輕男性半身人像,室內(nèi)窗邊場(chǎng)景。側(cè)前方自然光照亮面部,明暗過渡柔和,輪廓立體;背景壓暗,膚質(zhì)真實(shí),電影級(jí)攝影光影質(zhì)感。

整體生成效果不錯(cuò),光影表現(xiàn)是亮點(diǎn)。側(cè)窗光形成了清晰的明暗分區(qū),面部結(jié)構(gòu)被很好地勾勒出來,膚質(zhì)細(xì)節(jié)自然,沒有明顯過度磨皮,畫面還是有較強(qiáng)的電影感和空間層次的~
最后再來淺淺測(cè)一下中英文處理能力,咱們直接讓萬相2.6生成一個(gè)中英文對(duì)照排版的美食宣傳海報(bào)!
中式餐廳宣傳海報(bào),縱向構(gòu)圖,中英文排版,海報(bào)主體為一碗熱氣騰騰的招牌菜,背景干凈。海報(bào)文字內(nèi)容如下:中文主標(biāo)題:“招牌牛肉面”,英文副標(biāo)題:“Signature Beef Noodles”,中文副文案:“每日現(xiàn)熬湯底 · 新鮮食材”,英文副文案:“Fresh ingredients, slow-cooked broth”文字排版清晰,中文在上,英文在下,層級(jí)分明,整體風(fēng)格溫暖、有食欲感,適合餐廳宣傳海報(bào)。

其實(shí)對(duì)于這張圖而言,最難的不是中英文生成,而是構(gòu)圖排版,對(duì)于美食海報(bào)來說,主體占比最大的一定是食物本身,從輸出效果看,模型在美學(xué)判斷上是靠譜的,這一張已經(jīng)完全達(dá)到成品水準(zhǔn)。
這波整體測(cè)下來,萬相2.6給我的最直觀的感受就是:有小瑕疵,但是整體表現(xiàn)還不錯(cuò)的。
畢竟,有些地方它確實(shí)還會(huì)犯迷糊,比如多角色臺(tái)詞偶爾對(duì)不上、復(fù)雜動(dòng)作理解有時(shí)不到位,但聲畫同步、視頻參考這些核心能力已經(jīng)挺穩(wěn)了。
至少對(duì)我這種平時(shí)做點(diǎn)視頻、二創(chuàng)、測(cè)試玩法的人來說,這一代已經(jīng)是敢多跑幾次、不用每次都碰運(yùn)氣的狀態(tài)了。
除了剛才測(cè)到的一些能力外,萬相2.6在多圖融合、美學(xué)要素遷移、歷史知識(shí)語義理解上也做了提升,感興趣的朋友可以直接去官網(wǎng)試試~
一鍵三連「點(diǎn)贊」「轉(zhuǎn)發(fā)」「小心心」
歡迎在評(píng)論區(qū)留下你的想法!
—?完?—
專屬AI產(chǎn)品從業(yè)者的實(shí)名社群,只聊AI產(chǎn)品最落地的真問題
掃碼添加小助手,發(fā)送「姓名+公司+職位」申請(qǐng)入群~

進(jìn)群后,你將直接獲得:
最新最專業(yè)的AI產(chǎn)品信息及分析
不定期發(fā)放的熱門產(chǎn)品內(nèi)測(cè)碼
內(nèi)部專屬內(nèi)容與專業(yè)討論
點(diǎn)亮星標(biāo)
科技前沿進(jìn)展每日見

