智东西
作者 王涵
编辑 心缘

智东西4月3日报道,今天,阿里通义实验室发布视频创作大模型Wan2.7-Video,支持文本、图像、视频、音频全模态输入,在画面结构、剧情走向、局部细节、时序变化等方面均可编辑。

Wan2.7-Video实现一句话改视频,模型会自动保持光影与材质的一致性,同时可以搭配多张图像输入。

Wan2.7-Video引入了视频续写与尾帧控制的联合机制,用户可以在续写视频的同时,直接指定结尾画面。同时,该模型支持全模态素材参考,最多支持5个视频主体参考

在运镜方面,用户只需丢一段简短文字,模型就能自动搞定智能剧本创作和分镜调度,还可以根据不同的电影类型自动匹配相关色彩和光影风格。

智东西上手体验了Wan2.7-Video的角色替换功能,让模型将原视频中的欧美男生换为参考图中的中国男生。

可以看到,素材替换后的视频,背景和人物的服装、姿态均与原视频保持一致,人物的嘴型和台词也没有改变,只是人物服装上的光影效果被压暗了。并且,视频中替换后的中国男生也与素材照片基本一致。

原视频:

修改后视频:

体验链接:

阿里云百炼:

https://bailian.console.aliyun.com/cn-beijing?tab=model#/model-market/all?providers=wan

万相官网:

https://tongyi.aliyun.com/wan

一、支持局部增删改,可参考多模态素材

在Wan2.7-Video中,用户可以像修图一样修视频,可以通过指令对视频画面进行局部调整,编辑后的区域在光影与材质上能与原视频自然融合。

该模型支持指令增删元素、替换物体,也可修改物体属性,还可以支持参考图像内容进行精准添加。Wan2.7-Video可以保持人物动作不变,将背景季节从夏日变深秋,或一键转换画风

对于已经拍摄或生成的视频内容,该模型支持通过指令描述对剧情内容和拍摄方法进行修改。

角色方面,Wan2.7允许用户在不改变原有身份和场景的前提下,对角色的行为、台词甚至拍摄视角进行修改,实现二次创作。

该模型支持修改角色所讲的台词内容,保持其情绪、口型与新台词匹配,并保持音色统一。用户也可以修改视频中角色的行为,如“其他保持不变,坐沙发上的女生变为站着打游戏”,仅动作逻辑改变。

同时该模型还支持同场景角色的风格、服饰、道具等的修改,保持原有姿势不变。拍摄方面,Wan2.7支持修改拍摄相机设定如机位、视角、景别、镜头类型、焦距等。

Wan2.7可以保留原视频的动作序列或镜头运动,生成新场景;参考视频的风格化表现或粒子特效材质;保留原视频的色彩风格和环境,增加剧情等。

本次升级,Wan2.7重点优化了视频续写+尾帧控制功能,Wan2.7可以实现对剧情走向和画面构图、光影的精准控制,兼顾动态延续性与结构可控性。

用户只需要告诉模型后续剧情,它就能在保证画面连贯的前提下,延展剧情、变换机位或调整节奏,有效解决传统首尾帧中常见的“刹车感”以及视频续写可控性差的问题。

在参考图方面,Wan2.7支持图像、视频、音频等多模态参考,支持最多5个视频主体参考。该模型还对多宫格参考图进行了针对优化,可以直接将漫画转换成动画片。



二、演绎超40种表情,还能拍出希区柯克效果

通义实验室视频团队透露,Wan2.7对大量专业剧本进行了学习,这使得模型掌握了编排不同戏核的内在规律。

该模型能根据一句话,自动构建出符合戏剧逻辑的起承转合,并生成节奏精准、镜头语言丰富的专业分镜脚本。在情绪表达上,Wan2.7不仅支持高兴、悲伤、愤怒等基础情绪,还能演绎超过40种细分表情

并且,Wan2.7还建立了一种新的映射关系,即以戏核为高级指令,直接驱动光影、摄影与色彩等参数的生成。用户指定影片类型,如“西部片”、“科幻片”,即可获得与风格相符的光影、色彩等。

除此之外,该模型将动画的艺术风格解构为了整体造型、线条轮廓、光影材质、空间等多个独立维度。用户可以自由组合这些维度,创造出独特视觉风格,并保持多镜头间的高度一致。

此外,在拍摄技巧上,其还支持推、拉、摇、移、跟、升降等数十种基础运镜,能执行希区柯克式变焦、上升揭示、左移右摇、手持跟拍等复合技巧。

结语:视频生成不再是视觉模型的独角戏

过去,用户修改视频中的任何细节几乎都意味着重新生成整个片段,效率低下且难以保持一致性。Wan2.7的通过底层效率优化显著降低模型的使用门槛,技术优化让专业视频创作变得更加轻松可控。

通义实验室语音团队透露,其在音频预训练、音频数据、音频理解方面提供了大力支持,显著提升了该模型的声音的真实感、自然度、音乐旋律和音画同步的质量。

虎鲸文娱摩酷实验室则在影视领域知识和角色表演方面提供了一系列专业支持,提升了模型的影视级表现力。

双方的合作说明,当下高质量视频生成已不仅仅是视觉模型的竞赛,而是对音画协同、表演逻辑和影视美学的综合考验。