可灵O1，LTXV2，VEO，万象2.6，豆包1.5pro，海螺2.3比拼，谁强？一天时间用ai完成一部短片制作

原始影片內容展開影片

今天分享视频模型的细微区别和使用情况

使用可林和豆包模型的对比

视频创作的工作流程分享

多图参考的重要性

角色一致性问题及解决方法

今天这期分享主要是跟大家来讲一下这里面所有的我常用的视频模型它们之间的一些细微的区别，以及避开哪些模型我们什么时候不应该去用它。然后这几天又做了一个短片，这里做了大量的镜头，大家可以看我抽了很多卡，我们直接来看效果。

第一个我这里是使用的可林，我的图片是这一张：向森林的深处走去，然后它四处在寻找一些什么东西。这个是我的提示词，这个豆包的模型豆包Pro1.5。继续看，我不知道录屏会不会上传之后会不会很清晰，我讲一下我的一个感受吧，我现在看了两个，下面还有很多。我们先讲这两个之间的区别：首先可灵的这个视频的像素它非常的稳定。我们看豆包的这个像素，豆包的像素相较于可力就没那么稳定，它有些地方有那种涂抹的那种抖动的感觉。

就比如说有一块像素会有几块像素会这样抖动。另一个我觉得豆包的豆包pro1.5在角色的表演上面，它会更加的生动，更具有表演张力。那可宁的角色表演张力上面来讲的话，他就会弱一些。有好有坏都看你是怎么去用，比如说你需要角色表演他的情绪的时候，那肯定是它会好一点。

像这一张抽卡的，我认为是可宁会好一点，因为我不需要它有这么强烈的一个表演张力，它只需要安静的去在这个树林里面去寻找人，并且保持他一种优雅的姿态。你看它这个姿态，我觉得有点像女汉子，她过分的去强调她的表演的一些情绪了，其实我并没有描述那么多情绪给她，这是她自行发挥的。

就有好有坏，首先清晰度上面来讲的话肯定是变身。如果说你做其他镜头，不是这一个镜头的话，那我可能会用到它。模型跟可怜是我经常用到的，继续来看这是我抽到了满意的一张卡。我为什么觉得这张OK呢？首先它这个像素大，我可以放大给大家看，像素很清晰，它不会有很强烈的一个涂抹感，哪怕镜头在移动的时候，它的涂抹感都会很少，它不会飘，像这些细节。

其次它这个姿态，这人物的这个姿态我觉得是符合我的要求的，行走的姿态没有表演的过度化妆，并且有一种优雅的姿态，符合这个人设性格的。这里拿出了海螺2.3，海螺你看就很明显，它这个像素看到没有，非常的飘。但是它有一个好处，就是海螺这个模型，无论是摄像机运动还是人物运动，它很符合那种电影拍摄的那种基调，我挺满意它的运动的，但是它的这个画质真的是有点太差了。

这个画质对于我来讲是接受不了的。可能这个镜头的高频细节比较多，全是高频细节。它在原来在绘画的时候，特别是在动态演算的时候，它的模型动态拉得太大了之后，它很难在中间补帧，可能是这个原因。如果说是高频细节少一点的镜头，我们有机会可以再测一下海螺的表现，动态没问题，包括人物的姿态我觉得也还行，但他人物一致性肯定是不行的，并且他这里是没法多图参考的。

对了，我待会会补充一下我之前一直吐槽的一个问题，就是可能OE模型他没有主体参考，我已经找出他怎么去使用主体参考了，待会再讲。我们继续对比模型之间的一些视频表现的细节，那这个就是海洛，海洛它动态是没问题的，高频细节呢，它这个画面会很服务。如果说是低频细节，我到时候需要测一下，大家也可以留意一下。这个积分消耗是最高的，那这里我没有用到多头参考，大家可以看其他的也是。

它可能跟介于可林跟豆包之间，它的表演也是很牛逼的，并且呢，它可以多头参考，但是它的积分消耗非常非常的高，而且它的清晰度，我觉得它的清晰度还是没有可灵，可灵在清晰度上面的一表现是NO.1的，没有模型比它更好，并且呢，它也是有声音的，它这个也涂抹感也不错，像素跟像素之间的涂抹感并不清晰，所以不推荐大家使用VO。如果说你一定要使用的话，我觉得你可以拿豆包1.5去跟它平梯对。

OK，我们再看可怜OE。可怜OE一样的，只要是可怜的模型就非常的稳。如果说你不愿意尝试大量的抽卡以及使用一些模型特性的话，我就推荐大家无脑使用可怜就行了。我们看一下可怜OE的这个积分大概是多少，我们点击这个remix，我们可以看到它的积分消耗，因为我这里是使用的无限值通道，所以它是0积分消耗。

我们可以把它改成积分消耗高速通道，使用积分跳过排队。它这里有个排队是什么意思呢？因为我是终极会员，如果说大家很多中级会员都在使用免费通道，人多了之后他就会排队，那这个时候你不愿意排队，你可以直接切换成这个高速通道，它就可以直接跳过排队，并直接消耗你的积分。

其实跟吉孟有点像，吉孟他也是，如果你是免费用户，虽然每天赠送你一些积分，但是使用的人多了，你会有一个很长很长的队要排的。就这么一个意思。我切换成这个高速通道之后，如果你是一个付费用户的，你可以直接在这里生成的时候，它这里会直接跳出一个多少多少积分的消耗，这里是四十几分。如果说你时长不需要那么长，你可以改少一点，给了五秒他就二十几分，相对来讲比较少了。

我觉得如果说我们把它切换成微油或者海螺，海螺2.3吧，这个海楼2.3其实它的积分消耗也是很低的，看到没有，只有12积分，它甚至比可林OE更积分更消耗更少。我们切换成108P的话，它才24个积分。这就是它们之间的一些价格的一些对比。我更推荐如果大家积分很多，通过无脑选择可林2.6，并且到2.6我一直吐槽了收尾针没有了，现在它有了，回来了。

这个收尾针已经出现了，大家可以直接去使用2.6的收尾针，肯定是非常稳的，45的积分49的积分。我觉得还好，这个积分效果包括点OE 40的积分4秒钟5秒钟，看各自的选择吧。这个也是一样的，我觉得很稳。首先画面很清晰，你看它这里没有很强烈的一些噪点要去增加噪点。

这里很少我觉得就很好，包括姿态也是很好的，包括人物的一致性保持的也好。这里我没有给主体参考，它人物一致性保持的依然还是不错的，就不会像这个什么。当然它也跟它的动作转动的太大有关，增加了很多噪点，然后又使用降噪的技术，产生了一些什么把细节全部丢失了，看上去好像很多细节，实际上全都是一些像抹布一样的细节，看上去好像其实细节很少，感觉分辨率很低强行被拉大了一样的感觉。

首先清晰度就不够看，那么我肯定不会弄。我来看一下，这里已经是万象2.6了，你看大已经是70的积分了。毕竟总而言之，我不推荐大家在这个里面使用万象2.6，康复UI中最新开源的一款视频模型，我第一时间就装上它回来看了一下，我觉得这个模型比万象2.6强一点。首先它清晰度会更好，看到没有，我觉得这个模型是可用的，我为什么觉得没有给他打勾，因为他这个人物姿态不太符合我抽屏的一个需求。

就是有一点粗放吧，不太符合角色性格。当然我可以在描述词里面去给他添加这些走路姿态的一些引导，可能会更好一点。总而言之我觉得这个模型还是不错的，但是我觉得跟可怜还是有差距的，并且他在这个里面也是不支持物资是多图参考的，所以一般情况以下我也不会用它。

那这里的话，我是直接消耗了14的积分，这个积分的消耗也是非常高的。当然这里面还有其他的视频模型，比如说像Sora没有去测，因为我之前用Sora做过几个视频，我觉得效果不是很好。主要的原因是它清晰度不够，有点像海螺，它的噪点很大，这个模式我也不太推荐大家去用，因为它这个积分消耗很高。

并且呢，如果你要使用的话，我觉得你还不如使用豆包1.5模型天后，开源之后在本地部署的那个硬件要求非常高，几乎是没有什么人能够将它在自己的电脑上面跑动的，除非你是顶级玩家。就它的显卡要求特别夸张，反正24个G的显卡都没法玩它，所以可能还需要一段时间，等社区将它优化，到时候大家可以使用这个模型，那我觉得也是挺好的。

如果说大家喜欢在本地捣鼓看VOI的话，那起码你迎来了一个更好的一个视频模型，那是有机会去用本地来做出更好的作品的质量。好，那讲到这里的话，我再补充一下我刚刚提到的多图参考，为什么我去强调了这个点呢？因为它非常重要。比如说这里啊，我这里有一个女人拿着杯子在喝茶，那这里呢，我去生成了一些视频，大家可以看一下。

我看下这个是豆包的，我就是热爱这种自然的生活。你看他这个脸转过来之后，他就不是那么回事了，就跟我们的主角的样貌就不对了。如果说你的镜头里面有大量的人物表演的话，我推荐大家第一考虑豆包这个1.5模型，并且他的这个清晰度也是够看的。再看最后这个，这是肯定OE的，在这里呢，给他添加了一个模特图，这一张图添加了这张图给他作为一个角色的参考。

那之前我是不知道的，之前我一直以为他没有主体参考的功能，当然这个是不是叫主体参考我也不太确定，反正呢，我将我的骑士镇的图放在这里，再给他中间加一张模特图。这video我是没加的，就没有加视频。它没有加视频，它一样能跑幻象2.6，它也可以多图参考，但是它必须要添加一个视频。它可能就是一种视频编辑的功能，但这里的话，它可以直接多图来生成视频的话，我默认就觉得它应该是可以支持多图参考的，在这个lowart里面，并且它得出来的结果也是非常好的。它这个人物的这个脸，它一直是保持了跟第二张角色参考图中的一致，我觉得这个对于我来讲很惊喜。

我本来还期待着他们的平台能更新所谓的主体参考的功能，我不知道他们后面会不会更新，直接在这边加一个主体的一个添加的按钮。如果不添加的话我觉得也没有那么焦虑了，因为我现在已经可以直接达到跟主体参考一致的一个功能了。并且我用这个功能跑了很多视频。我们再来看一下，运动幅度很大，而且它的提示词响应也会更好。增加了这个主体参考之后，它手持剧烈摇晃的拍摄镜头跟拍打，包括它的表情表演我觉得都很好，但唯一的遗憾是什么呢？就是可领它这个OE，如果你用了这个的话，它是没有音画同步的，它不给你生成音频。

就你得自己手动去后期配音的配音效，但其实你也可以直接用可怜2里面生成音，将这个音效下载下来跟他去匹配一下，反正都是10秒钟的。包括这里也是一样的，后面只要设计到角色都会给它增加一个什么，增加一个主题参考，这样子的话人物就会非常的稳定，它不会脸部不会增加一些奇怪的噪点，以及长得像其他的角色特性，它都会很稳定。

OK，那我再讲一讲整个片子的制作吧。整个片子呢，我是直接讲一个女性在雨天去露营的一个故事小短片。那这个短片的创作的流程是怎样的呢？首先我使用这个Google AI Studio里面，我直接告诉它一个主体的视频创作的内容，就是我要做一个社交媒体上面的短视频。这个创作是以一个女性去深山中露营为故事线，你需要将每一个镜头逐步拆解成一个逻辑连贯的露营的视频短片的镜头分镜，然后将每一张分镜用AI的自然语言将它描述出来，用于AI绘画创作，它就一下就给我生成出来了。

原始绘画我找不到了，我这里只找到了之前将这些图片丢进来让他帮我反推的一个工程，这里我只是跟大家讲一下。弄好了之后呢，我就把他所有的提示词复制到Lab2Agent里面去。我们看一下，这个对话应该在这，对，在这个Agent里面我就直接在Agent里面给他描述将以下的镜头生成对应的图片，他就直接把我所复制的这些内容挨个的去生成图片。那这个都是我从Acuity里面拿出来的提示词，这里帮我写好的。来，一个生成出来之后呢，接下来我就直接是做角色了。

角色我是在本地区做的，因为像这种带一点点暴露的这种角色啊，你在公共平台上面去生成的时候，他很容易触发到一些限制，就是他无法给你生成这种敏感的图片。实际上我觉得这个并不太敏感，但是他香蕉是拒绝的。在这个lowout里面是拒绝的，他有时候拒绝，有时候不拒绝。就直接在本地生成出来之后，把它丢进来做人物的一致性。就做了这个正面侧面，包括各个角度将这种特写跟全身合并成一张图片。如果说你的镜头只有特写的话，你可以直接把这张图拿进去给他做人物一致性的参考视频生成过程中。

那如果你的视频里面带远景的话，可以直接将这种带远景的图拿进去给他做视频的人物一致性参考。好，人物模特做好之后呢，接下来我就是为每一张图做人物一致性。大家可以看这人物一致性，其实我做了很多的。因为为什么呢？因为他有时候抽的并不好。你看这角色首先不太像对吧？这都是香蕉烂了不烂了pro做出来的。他有时候不像，反正第一遍用的是agent，有一些做的不像的，把不像的呢就在这里就大量的反复抽卡，最后抽一张气质OK的。你看我这里都有打勾的，包括你看他有些替换的并不好，有些你像这种就肯定是降制的结果。像这种不是降制的结果，但是他抽的气质我并不满意。他还是有点偏欧美化，我觉得这张会好一点。

你看我再找一张降制的结果，这张就是百分百降制的，他直接连提示词都没有理解了，就是牛头不对马嘴。这些都没有降势，但是效果并不都太满意，所以的话，我就海量的去抽了一些卡。OK，抽完卡之后，视频生成了。我第一遍肯定是先用这个Agent拼量去生成视频，但是有一些视频我依然是不满意的，自己手动去抽提示词都是有迭代的，再找一个最好的。最后我去剪辑的过程当中，我觉得它这里的镜头少了一些。

你直接把这几组镜头剪在一起的话，会很干，而且会不连贯。最后我就用Agent去跑了一些空镜头，比如说将这张图片作为一个参考，为这张图片生成不同景别的空镜可以，大全景，中景，特写什么的，它就帮我生成了这些图片。其他生成的不对的就自己去手动的去提示词介入，生成16比9的三张特写，这里我就觉得很好。我就挑了一些出来，挑了一些出来之后，再用频量这就一遍就过了。一遍过，有角色的话，我推荐大家还是手动去抽一点卡，因为你所有的东西都用一键无脑堆裂的话，你做出来的作品，它是很死板的，或者说是没有故事，不就缺乏逻辑的。

今天的分享主要讲的是，首先视频模型之间的一些特性，其次给大家分享了一下我的整个创作的工作流程，在这个里面是怎么去完成的。整个片子制作时间大概是花了一天的时间就完成了所有的工作。那这个在以前我使用本地的康复UI是不敢想象的。那好吧，今天的分享就到这，拜拜。

可灵O1，LTXV2，VEO，万象2.6，豆包1.5pro，海螺2.3比拼，谁强？一天时间用ai完成一部短片制作

相關推薦

"5 Simple Productivity Tools for ADHD: Transform Your Focus System"

绝大多数普通人什么都不具备，他是怎么翻身的？m

短视频爆火，和文案关系真不大。

我用3000块的成本和4个月的时间完成了一次“阶级跨越” | Vlog48

10 Apps That Turn Your Mobile into a Hacking Supercomputer!

2年从0到16间店，怎么做到呢？ 为什么大多数连锁店卡在第三间店？- 连锁教练 Stay Consultancy 创办人 Jay Wong

2年从0到16间店，怎么做到呢？为什么大多数连锁店卡在第三间店？- 连锁教练 Stay Consultancy 创办人 Jay Wong