阿里通义实验室近日推出了一款名为Wan2.7-Video的视频创作大模型,该模型突破了传统视频编辑的局限,支持文本、图像、视频和音频的全模态输入,为用户提供了更加灵活和高效的视频创作工具。无论是画面结构、剧情走向,还是局部细节和时序变化,用户都可以通过简单的指令进行精细调整。
Wan2.7-Video的亮点之一是实现了“一句话改视频”的功能。用户只需输入简短的文字描述,模型就能自动保持视频中的光影和材质一致性,同时支持多张图像的同步输入。这一功能大大简化了视频编辑的流程,让用户能够更专注于创意表达。模型还引入了视频续写与尾帧控制的联合机制,用户可以在续写视频的同时,直接指定结尾画面,确保剧情的连贯性和可控性。
在角色替换方面,Wan2.7-Video展现了强大的能力。通过参考图像,模型可以将原视频中的角色替换为新的形象,同时保持背景、服装和姿态的一致性。例如,将原视频中的欧美男生替换为中国男生后,视频中的人物嘴型和台词保持不变,仅服装上的光影效果略有调整,整体效果自然流畅。
该模型还支持对视频画面进行局部增删改操作。用户可以通过指令对特定区域进行调整,编辑后的内容在光影和材质上与原视频无缝融合。无论是增删元素、替换物体,还是修改物体属性,Wan2.7-Video都能轻松应对。用户还可以通过指令修改剧情内容或拍摄方法,实现二次创作。例如,保持角色身份和场景不变,仅修改行为、台词或拍摄视角,为视频创作带来更多可能性。
在拍摄技巧方面,Wan2.7-Video同样表现出色。模型支持推、拉、摇、移、跟、升降等数十种基础运镜,还能执行希区柯克式变焦、上升揭示等复合技巧。用户只需输入简短的文字描述,模型就能自动完成智能剧本创作和分镜调度,并根据电影类型自动匹配色彩和光影风格。这一功能让非专业用户也能轻松创作出具有专业水准的视频作品。
Wan2.7-Video在情绪表达上也达到了新的高度。模型不仅支持高兴、悲伤、愤怒等基础情绪,还能演绎超过40种细分表情,为角色赋予更加丰富的情感层次。同时,模型建立了一种新的映射关系,以戏核为高级指令,直接驱动光影、摄影和色彩等参数的生成,确保视频的整体风格一致。
在多模态参考方面,Wan2.7-Video支持图像、视频和音频等多种形式的输入,最多可参考5个视频主体。模型还对多宫格参考图进行了优化,可以直接将漫画转换为动画片,为创意表达提供了更多选择。模型在视频续写和尾帧控制方面进行了重点优化,有效解决了传统方法中常见的“刹车感”和可控性差的问题。
阿里通义实验室表示,Wan2.7-Video的推出标志着视频生成技术进入了一个新的阶段。过去,用户修改视频中的任何细节几乎都需要重新生成整个片段,效率低下且难以保持一致性。而Wan2.7-Video通过底层效率优化显著降低了使用门槛,让专业视频创作变得更加轻松可控。这一成果不仅得益于视觉模型的创新,还离不开音频预训练、影视领域知识和角色表演等方面的综合支持。















