不会设计分镜的我,却用AI导演了一部完整短片

原视频内容展开视频
  • 你好,我是王淑玉老师,今天咱们来聊聊如何用纳米AI端道端生成完整视频。
  • 我对这个事情的评价是四个字:懒人福音。
  • 纳米生成视频并不是新鲜事,但这次它将生成视频做成了一个智能体。
  • 虽然许多人对此感到兴奋,但我希望能够精确控制整个故事。
  • 我会给出一个完整的故事脚本,并观察这个技术的工作过程。
  • 我期待更多开脑洞的优秀作品!

你好,我是王淑玉老师,今天咱们来聊聊如何用纳米AI端道端生成完整视频

我对这个事的评价四个字叫懒人福音。纳米生成视频实际上并不新鲜,它之前就有相应的功能,但这次它把生成视频做成了一个智能体。

最近很多人对这个技术异常兴奋,他们认为这样能够快速大批量生成视频,充斥在各个视频平台。许多人的宣传都是用一句话就能够生成一个完整视频。例如,这里就有个例子——生成一个五峡的主题大片,我觉得这非常有意思。还有“我在冷宫忙种田”这类的。

接下来,我来做个测试。但不同的是,我不想只用一句话,因为一句话意味着我对整个事是失控的,相当于我只给它一个主题,剩下的完全看它的心意,那肯定不是我想要的。那么,怎么办呢?

我希望精确控制,就是我要把这个完整的故事给你,你把它给我呈现出来。今天我们就来测试一下这个效果怎么样。我需要给它一个完整的故事脚本。几天前,我测试了一下小说生成,这个测试结果叫做借约记录

当时我要求生成的小小说是悬疑而不惊悚,于是一开始得给人一种疑惑的感觉,但后来又不会让人害怕。

这个故事我会把它包装成一个提示词,前面是一条指令,把这个故事用视频展现,然后把整个故事贴到里头,这就是我们的提示词。

下面我们来开始运行这个提示词。我们把这个提示词一运行,你看到这个提示词很长,拖到底部可以看到它正在思考。它说:“我正将这个故事用视频的方式来展现,这可能需要一些操作,你先干别的事去吧。”说明这个时间现在还是需要等一段。

现在我就来看看它究竟在做什么。首先,它做了非常详细的任务规划,第一步是理解故事内容,第二步是生成相应的文案,接下来有好的标题、分镜脚本、生成图片、生成配音、图片转换成视频、每个视频添加配音和字幕,所有视频拼接成完整的,再获取背景音乐然后添加。

这是它的想法。在这个过程中,你可以看到它把原来的输入分成了这些分镜,并用提示词来描述这些分镜当中的人物以及他们之间的语言和动作。我觉得这个做得挺好。

接下来是它实际的工作过程。一上来是先有了这些分镜的提示词,所以它先来一张一张地生成图片。这个过程我就不一个一个地看了。我们可以看到,里面每一个的分镜都有展现,你会发现人物的一致性还是非常好的。这里面调用的工具,以及相应的参数,也是输入提示词是它刚才根据这些分镜生成的。

比如这里生成的中国老年女性70多岁,这位老太太叫赵奶奶,整个过程里头她穿的衣服、打扮以及样貌都保持了一致。我觉得这个做得还是非常棒。

然后,它开始生成音频。这些音频都是一小段一小段生成,最后再用拼接的方式弄在一起。我们可以打开看一看它调用的工具,这里用的是minimax,就是我之前给你介绍过的,它用来生成音频。当时我给你演示的是用我的声音,而这里面显然就用了一个通用声音,有一个叫gentleman的voice ID。

现在你可以看到生成的视频,一段一段视频生成。我们还可以查看它的工具参数。首先给一个电图,它上来先把图生成出来,根据图再去描述图里的人物该怎样变化与交互。例如这里说:保持画面稳定,偶有轻微呼吸式抖动。这是它在生成视频时的提示词,目的是尽量减少大幅度的动作为了保持整体一致性。

接下来,视频需要配上语音,因为刚才生成的视频是没有语音的。后面会给你一个样例,它把配音加上去,这样能让声音辅助这个视频的表现。

这是整个的生成过程,最后大家拼接起来,这就是一个完整的视频,背景音乐也加进去了。这个时候,它给我们一个结果,作为一个智能体,它把整个结果放在后面。我们可以点击全屏来查看,这就是它生成的结果。

首先,任务规划我们刚才已经看过了,随后是不同的任务,包括整理文案、把故事变成一系列的文案,分镜脚本。你看里面的中国年轻男性20多岁是图书馆管理员、女性60多岁是陈阿姨去还书,后面会有赵奶奶,70多岁,引发盘棋,带着老花镜,一直维持着一致性,真的挺厉害的。

此时我们就看我们的成果。我必须说,它配的背景音乐我不是很喜欢,所以我给你演示的这个是有声音,但还没来得及配背景音乐的那一版。这中间的过程你都可以下载下来,这是非常透明的,我觉得挺好。

周三下午三点,陈阿姨推开社区图书馆的门,询问有什么新书。她真的要回答,却发现系统显示她借了《时间的折奏》,而她却拿着《原意指南》来还。更奇怪的是,那本被借走的书人在书架上。

接下来的几天,类似的幽灵借阅不断出现:张爷爷借了严清小说,王阿姨借了德语词典,这些异常记录都发生在下午三至四点,借书人都是老年读者。

周五下午,我看到赵奶奶出现在图书馆,她拿起一本书,但并没有离开,而是在角落抄写着什么。靠近一看,发现她记录的正是那些幽灵借阅。原来赵奶奶为了让在外地读大学的孙子以为社区老人都在积极学习,偷偷编造借阅记录。她了解每位老人的心愿,陈阿姨想了解物理,张爷爷想理解老伴的阅读喜好,王阿姨想学德语联系原价的女儿。

我提议开设阅读下午茶活动,鼓励大家自由阅读。看着赵奶奶抱着《时间的折奏》离开,我明白时间的折奏是我们的心愿,藏在日常的缝隙中,等待被温柔展开。

好了,咱们来说说限制。这项技术的限制是什么?现在来说,视频一开始生成的那个片段是没有声音的,后面再拼上去的。所以它不是一个原声的多模态,少了音频口型的同步等功能。

这一点你对比View3那种原声多模态的视频生成结果就会很明显。我给你看一段之前根据我自己创作的剧本“全力的游戏”的叙述片段,看看这里面的声音和人物之间的关系,甚至声音和动物之间的关系,你看这里面是不是配音的口型都可以对上,这就是原声多模态带给我们的优势。

然而,我必须说,对你想讲故事而言,我觉得现在的这样的一个纳米AI视频生成功能已经是足够好用。这首先是因为成本真的低。View3的成本你是知道的,对吧?

它使用的功能是调用了第三方的音频,比如minimax,还有生成图、生成视频这些,它没有具体说明从哪调用的。我们假设它用的是自身的模型,所以它的成本可以完全可控。

而且相较于刚才说的原声多模态,现在这种方式的技术也更加成熟。比起View3,它可以一次性处理完整故事,你把这个交给它,实际上我们刚才是中间生成了很多图,你完全可以不管它,放在一边,随时玩,就能看到结果。

所以,你不需要逐段写短的脚本生成8秒的视频再拼接,所有这些完全省略了。另一个优势是因为它是个国产的产品,所以它的中文支持更好,包括刚才你看到的语音,以及文本。这些中文如果用Google或OpenAI生成结果,其差别还是很显著的。

而且这大幅拉低了门槛,技术上的门槛、经验上的门槛不需要。以前你还得懂得如何把镜头拆分成8秒钟,怎样去描述这些都不需要了。还有就算是意志,之前把一个小时的内容拆成几分钟,哪怕是一分多钟的视频,都需要毅力。

现在,所有这些都被踩平了,你可以瞬间成为导演,不需要任何其他方面的储备,无论是艺术上的还是技术上的。只需要指挥你的AI演员,把整个剧演好,把这个故事生动展现出来。

这一点我觉得是最重要的。在这种情况下,拼的不再是技术,而是创意。因此,跟许多人的期待不同,他们认为我有了这个后就可以在各个平台上刷出各种视频,甚至万一哪个火了,我觉得那并不重要。

在这样的情况下,拼数量已经没有什么优势,我认为能够用现在的技术讲好一个故事,展现出有趣的视频更为重要。因此,我期待有更多开脑洞的优秀作品。

这就是我给你介绍的纳米AI,希望它能够帮助你做出非常有意思的视频。在退出之前,别忘了关注我的公众号知识星球小暴铜,也叫预数之蓝,点赞、关注、评论、转发!

我是王淑玉老师。