实测四大开源AI视频模型 - 阿里、腾讯、阶跃星辰和智谱，无限生成的Time要来了

终于，视频模型开源卷到新阶段了！

前有智谱 CogVideoX v1.5、腾讯混元 HunyuanVideo、阶跃星辰 Step-Video-T2V、这昨天又来了一个阿里全新开源的 Wan2.1。

开源模型这么多，究竟生成效果有什么差异？

我们先来看一组之前大家都熟悉的提示语，四家模型的对比效果吧：

单看这个，差异好像不是特别明显？

那如果我们进行更多更全面的测试呢？还会是这样的效果吗？

实话实说，不止大家好奇，我们也非常好奇。

今天我们就玩个大的！直接来个开源文生视频模型效果的横向测评，用同一个提示词分别丢给各个模型，看看他们生成的效果到底如何。

不吹不黑，真实评价！百镜系列又来啦！

Here we go！

一、物理规律

首先老规矩，我们先来测测对于物理规律的复现。

这一块，我们最常用测试就是切东西。切东西虽然看起来简单，但其实非常考验模型的能力。因为这个镜头不仅要生成模型最容易出错的手部动作，同时还要看刀和物体之间的作用力是否符合物理规律。

四个模型都成功切下了苹果，能够感受到刀和苹果之间的作用力，只是混元感觉会切到手，通义万相似乎切到太过顺滑了点。

那切东西可以的话，东西掉落在地上，产生的和地面的作用力是否能够复现呢？这里我最希望的是能够展现物体掉落在地面的正常速度过程，而不是夸张展现。

可以看到每个模型对于苹果掉在地面上的一瞬间展示的都还不错，都很接近真实物理规律，细挑毛病的话就是清影溅起的灰尘大了一点，阶跃星辰后面不知道又出现了一滴什么东西掉在了苹果上。

实际上，从这两个简单的视频能够感受出，视频模型是一直朝着接近真实物理世界进化的。只是这样简单的效果，也已经比最初视频生成模型出现时好了太多太多，甚至有的现在已经区别不出真实与AI了。

二、人物

关于人物这一块，首先我们先看各模型对于面部细节的展现如何：

prompt：白发老人微笑，皱纹舒展，手持蒲公英，微风轻拂，蒲公英种子缓慢飘散

我发誓我输入的提示语都是一致的，但是阶跃星辰生成出的这个白发老人是吃了多少古装片数据集……，而且我蒲公英去哪了？除了这个之外，三家对于蒲公英散开的细节都没有太表现出来。但是对于面部的处理都还不错，混元还做了一个面部虚焦的效果。

然后我们来一个也是大家熟悉的案例，展现一下人物与物体之间的互动：

prompt：一位身穿深黄色防护服的女医生的电影镜头。镜头慢慢拉近她的脸，轻轻平移以强调她眉毛上刻下的担忧和焦虑。她弓着背坐在实验室桌子上，聚精会神地凝视着显微镜，戴着手套的手小心翼翼地调整焦距。浅浅的景深聚焦在她眼睛上，反映了她所承受的巨大压力和责任。

有意思的是，只有混元生成的人物是亚洲人脸，其他三个模型统一都是欧洲人脸，能看出这背后训练数据集的不同。除此之外，三家模型对于提示语的指令完成的都不错。

最后，我们来一个稍微复杂一点的芭蕾舞动作，看看模型们对复杂的人类肢体运动的展现：

prompt：一名舞者在跳芭蕾舞，蓝色的背景，舞台上，全景镜头拍摄舞者优雅的身姿和飘逸的舞蹈动作

如果要我给这一段视频的完成度排序的话，我比较倾向阶跃星辰 > 通义万相 > 腾讯混元 = 智谱清影。从画面展示上看阶跃星辰的完成度最高，而且还生成了多人物的镜头，其他人物也没崩。通义万相的动作比较完成，而混元和清影仔细看都能看到腿部动作的错误和混乱。

从这一部分来看，人物动作仍然是视频模型优化需要着力优化的方向。其实跳舞的动作并没有特别复杂，人物手上还没有道具呢，而且文生视频有更大的灵活生成空间，但是人物动作上还是存在或多或少的问题，需要我们通过多次抽卡来解决。

三、动物

人物测完之后，老规矩我们再来几组动物的镜头，看能不能精准呈现毛发飘动、动作流畅，并验证模型是否理解真实物理规律和是否具有对于各动物物种的想象力。

prompt：一个低角度镜头捕捉到一群粉红色的火烈鸟优雅地涉水在郁郁葱葱、宁静的泻湖中。它们鲜艳的粉红色羽毛与周围植被的翠绿和清澈碧绿的海水形成鲜明对比。阳光从水面上闪闪发光，在火烈鸟的羽毛上产生波光粼粼的倒影。当鸟儿穿过浅水区时，它们优雅、弯曲的脖子被淹没在水中，它们的动作产生柔和的涟漪，蔓延到整个泻湖。构图强调了场景的宁静和自然美景，突出了生态系统的微妙平衡和这些壮丽鸟类与生俱来的优雅。清晨柔和的漫射光线将整个场景沐浴在温暖、空灵的光芒中。

原来在阶跃的眼里，红色的鸭子 = 火烈鸟？还有清影这个座机画质是怎么回事？混元的鸟也太多了点……

然后我们来看对于动物的高速运动，模型们的展现如何：

prompt：一只猎豹正在非洲草原上快速飞奔，它的身体呈现出流畅的流线型，肌肉线条紧绷，充满了力量和速度。猎豹的眼神专注而锐利，镜头快速捕捉猎豹飞奔的身影，整个画面充满了紧张和刺激的气氛，让人感受到了猎豹的凶猛和力量。

不得不说，对于高速运动物体的背景的展现，通义万相做的确实好。能够非常明显的感受出猎豹在高速飞奔的氛围。

最后我们来一个不常见的物种，拟态章鱼，看看模型们对于这类不常见的物种想象力如何：

prompt：水下微距摄影，一只拟态章鱼在色彩斑斓的珊瑚礁中巧妙变色伪装，其触手缓慢而优雅地蠕动，探索着周围的环境。细小的气泡从章鱼身边缓缓上升，阳光透过清澈的海水，近距离特写镜头，捕捉章鱼与自然环境的完美融合。

对于这种不常见物种的还原，综合来看，还是通义万相做的好一点，阶跃的章鱼头部有点变形，混元虽然没有生成出拟态章鱼的腿，但是水中的气泡做的很好，清影是整体来看画面是不错，但是运动幅度太小了。

四、场景

在进行一个完整视频制作时，一些场景镜头也就是空镜也是必不可少的生成类型之一。而且这些大场景镜头或是远景镜头，也考验了模型对于画面中各种各样细节的展现能力。

prompt：暴风雨肆虐的夜晚，一座哥特式灯塔矗立于海岸边，被狂风巨浪包围。闪电划破漆黑的天际，瞬间照亮了灯塔的轮廓，展现出其尖顶和复杂的石砌结构。巨浪猛烈地拍打着礁石，溅起层层白沫。镜头捕捉到闪电照亮灯塔的那一刹那，采用纪实摄影风格，营造出紧张而神秘的氛围。中远景，低角度拍摄，强调自然力量与人类建筑的对抗。

再来看一组更考验想象力的幻想未来场景镜头：

prompt：未来主义赛博朋克风格，繁忙的都市上空，悬浮列车在透明轨道上穿梭，留下绚烂尾迹。全息广告牌闪烁着霓虹色彩，展示着虚拟模特与产品。空中花园绿意盎然，樱花树绽放，粉色花瓣随微风轻舞飘落。广角镜头捕捉壮观的城市全景，强调科技与自然的融合。

整体上来看这两组画面，四个模型各有各的优势，每个模型对于场面中的细节关注点不同，展现的效果也就不同。但仔细来看大场面镜头中对于比较微小的细节之处展现的还是不够精细，这也是AI视频一直以来不太能够支持大屏播放的原因，一个画面总有那么两个地方不尽人意。但我还是非常期待，在更多次的迭代后，细节之处将不再是AI视频存在的问题。

五、风格化

风格化镜头测试的本质其实是对技术成熟度的压力测试，通过这类测试既能验证模型是否能够适配各类应用场景，同时通过各种风格类型的测试能够暴露出模型是否某方面的短板并在后续进行下一步的优化迭代。

所以我们测试也在水墨风格、简单2D动画、皮克斯3D动画以及新海诚动画风格四方面对模型们进行了测试。

水墨风格：

prompt：水墨动画风格，仙鹤展翅高飞，优雅地掠过烟波浩渺的山水之间，其身影仿佛与周围的云雾融为一体，画面以中国传统山水为背景，远山近水层次分明，仙鹤的动态展现了生命的活力与自由。整体色调以黑白灰为主，突出水墨特有的淡雅韵味，近景捕捉仙鹤飞翔的瞬间，展现出水墨动画独有的飘逸美感。

简单2D动画：

prompt：复古手绘卡通风格，一辆古老的蒸汽火车正穿越绚烂的彩虹桥，车厢内热闹非凡，挤满了各式各样的会说话的动物。火车头喷出浓厚的蒸汽，车身由明亮的红绿两色组成，窗户敞开着，露出车内动物们好奇的脸庞，整个画面充满了梦幻与童趣，宛如童话世界的一幕，远景。

皮克斯3D动画：

prompt：皮克斯风格的3D动画场景，一只毛茸茸的小橘猫正坐在一艘旧木船上，随着轻柔的海浪悠闲地向前漂流。小猫眼神好奇，耳朵竖起，似乎在聆听大海的声音。它四肢微曲，尾巴轻轻摆动，展现出对未知旅程的期待。木船表面有着岁月的痕迹，边缘挂着几只彩色救生圈，增添了几分童趣。背景是广阔蔚蓝的大海与天空，远景，采用跟随镜头，展现小猫与海浪互动的过程。

新海诚动画：

prompt：新海诚动画风格，细腻的光影变化和唯美的画面构图。阳光透过茂密的树叶洒在森林中，一个小女孩站在中央，光芒在他的头发和肩膀上跳跃，营造出一种梦幻般的氛围。镜头缓慢推进，聚焦在他的身影上，仿佛在探索他的内心世界。随着她的头发在微风中轻轻飘动，镜头切换到他的视角，仰望天空，一只蝴蝶从画面右侧飞入，轻盈的在她面前盘旋，镜头跟随蝴蝶的飞舞轨迹，展现出森林的生机与活力。整段视频充满了温馨与宁静的氛围，仿佛一幅动态的童话画卷。