不会设计分镜的我，却用AI导演了一部完整短片

原视频内容展开视频

你好，我是王淑玉老师，今天咱们来聊聊如何用纳米AI端道端生成完整视频。

我对这个事情的评价是四个字：懒人福音。

纳米生成视频并不是新鲜事，但这次它将生成视频做成了一个智能体。

虽然许多人对此感到兴奋，但我希望能够精确控制整个故事。

我会给出一个完整的故事脚本，并观察这个技术的工作过程。

我期待更多开脑洞的优秀作品！

你好，我是王淑玉老师，今天咱们来聊聊如何用纳米AI端道端生成完整视频。

我对这个事的评价四个字叫懒人福音。纳米生成视频实际上并不新鲜，它之前就有相应的功能，但这次它把生成视频做成了一个智能体。

最近很多人对这个技术异常兴奋，他们认为这样能够快速大批量生成视频，充斥在各个视频平台。许多人的宣传都是用一句话就能够生成一个完整视频。例如，这里就有个例子——生成一个五峡的主题大片，我觉得这非常有意思。还有“我在冷宫忙种田”这类的。

接下来，我来做个测试。但不同的是，我不想只用一句话，因为一句话意味着我对整个事是失控的，相当于我只给它一个主题，剩下的完全看它的心意，那肯定不是我想要的。那么，怎么办呢？

我希望精确控制，就是我要把这个完整的故事给你，你把它给我呈现出来。今天我们就来测试一下这个效果怎么样。我需要给它一个完整的故事脚本。几天前，我测试了一下小说生成，这个测试结果叫做借约记录。

当时我要求生成的小小说是悬疑而不惊悚，于是一开始得给人一种疑惑的感觉，但后来又不会让人害怕。

这个故事我会把它包装成一个提示词，前面是一条指令，把这个故事用视频展现，然后把整个故事贴到里头，这就是我们的提示词。

下面我们来开始运行这个提示词。我们把这个提示词一运行，你看到这个提示词很长，拖到底部可以看到它正在思考。它说：“我正将这个故事用视频的方式来展现，这可能需要一些操作，你先干别的事去吧。”说明这个时间现在还是需要等一段。

现在我就来看看它究竟在做什么。首先，它做了非常详细的任务规划，第一步是理解故事内容，第二步是生成相应的文案，接下来有好的标题、分镜脚本、生成图片、生成配音、图片转换成视频、每个视频添加配音和字幕，所有视频拼接成完整的，再获取背景音乐然后添加。

这是它的想法。在这个过程中，你可以看到它把原来的输入分成了这些分镜，并用提示词来描述这些分镜当中的人物以及他们之间的语言和动作。我觉得这个做得挺好。

接下来是它实际的工作过程。一上来是先有了这些分镜的提示词，所以它先来一张一张地生成图片。这个过程我就不一个一个地看了。我们可以看到，里面每一个的分镜都有展现，你会发现人物的一致性还是非常好的。这里面调用的工具，以及相应的参数，也是输入提示词是它刚才根据这些分镜生成的。

比如这里生成的中国老年女性70多岁，这位老太太叫赵奶奶，整个过程里头她穿的衣服、打扮以及样貌都保持了一致。我觉得这个做得还是非常棒。

然后，它开始生成音频。这些音频都是一小段一小段生成，最后再用拼接的方式弄在一起。我们可以打开看一看它调用的工具，这里用的是minimax，就是我之前给你介绍过的，它用来生成音频。当时我给你演示的是用我的声音，而这里面显然就用了一个通用声音，有一个叫gentleman的voice ID。

现在你可以看到生成的视频，一段一段视频生成。我们还可以查看它的工具参数。首先给一个电图，它上来先把图生成出来，根据图再去描述图里的人物该怎样变化与交互。例如这里说：保持画面稳定，偶有轻微呼吸式抖动。这是它在生成视频时的提示词，目的是尽量减少大幅度的动作为了保持整体一致性。

接下来，视频需要配上语音，因为刚才生成的视频是没有语音的。后面会给你一个样例，它把配音加上去，这样能让声音辅助这个视频的表现。

这是整个的生成过程，最后大家拼接起来，这就是一个完整的视频，背景音乐也加进去了。这个时候，它给我们一个结果，作为一个智能体，它把整个结果放在后面。我们可以点击全屏来查看，这就是它生成的结果。

首先，任务规划我们刚才已经看过了，随后是不同的任务，包括整理文案、把故事变成一系列的文案，分镜脚本。你看里面的中国年轻男性20多岁是图书馆管理员、女性60多岁是陈阿姨去还书，后面会有赵奶奶，70多岁，引发盘棋，带着老花镜，一直维持着一致性，真的挺厉害的。

此时我们就看我们的成果。我必须说，它配的背景音乐我不是很喜欢，所以我给你演示的这个是有声音，但还没来得及配背景音乐的那一版。这中间的过程你都可以下载下来，这是非常透明的，我觉得挺好。

周三下午三点，陈阿姨推开社区图书馆的门，询问有什么新书。她真的要回答，却发现系统显示她借了《时间的折奏》，而她却拿着《原意指南》来还。更奇怪的是，那本被借走的书人在书架上。

接下来的几天，类似的幽灵借阅不断出现：张爷爷借了严清小说，王阿姨借了德语词典，这些异常记录都发生在下午三至四点，借书人都是老年读者。

周五下午，我看到赵奶奶出现在图书馆，她拿起一本书，但并没有离开，而是在角落抄写着什么。靠近一看，发现她记录的正是那些幽灵借阅。原来赵奶奶为了让在外地读大学的孙子以为社区老人都在积极学习，偷偷编造借阅记录。她了解每位老人的心愿，陈阿姨想了解物理，张爷爷想理解老伴的阅读喜好，王阿姨想学德语联系原价的女儿。

我提议开设阅读下午茶活动，鼓励大家自由阅读。看着赵奶奶抱着《时间的折奏》离开，我明白时间的折奏是我们的心愿，藏在日常的缝隙中，等待被温柔展开。

好了，咱们来说说限制。这项技术的限制是什么？现在来说，视频一开始生成的那个片段是没有声音的，后面再拼上去的。所以它不是一个原声的多模态，少了音频口型的同步等功能。

这一点你对比View3那种原声多模态的视频生成结果就会很明显。我给你看一段之前根据我自己创作的剧本“全力的游戏”的叙述片段，看看这里面的声音和人物之间的关系，甚至声音和动物之间的关系，你看这里面是不是配音的口型都可以对上，这就是原声多模态带给我们的优势。

然而，我必须说，对你想讲故事而言，我觉得现在的这样的一个纳米AI视频生成功能已经是足够好用。这首先是因为成本真的低。View3的成本你是知道的，对吧？

它使用的功能是调用了第三方的音频，比如minimax，还有生成图、生成视频这些，它没有具体说明从哪调用的。我们假设它用的是自身的模型，所以它的成本可以完全可控。

而且相较于刚才说的原声多模态，现在这种方式的技术也更加成熟。比起View3，它可以一次性处理完整故事，你把这个交给它，实际上我们刚才是中间生成了很多图，你完全可以不管它，放在一边，随时玩，就能看到结果。

所以，你不需要逐段写短的脚本生成8秒的视频再拼接，所有这些完全省略了。另一个优势是因为它是个国产的产品，所以它的中文支持更好，包括刚才你看到的语音，以及文本。这些中文如果用Google或OpenAI生成结果，其差别还是很显著的。

而且这大幅拉低了门槛，技术上的门槛、经验上的门槛不需要。以前你还得懂得如何把镜头拆分成8秒钟，怎样去描述这些都不需要了。还有就算是意志，之前把一个小时的内容拆成几分钟，哪怕是一分多钟的视频，都需要毅力。

现在，所有这些都被踩平了，你可以瞬间成为导演，不需要任何其他方面的储备，无论是艺术上的还是技术上的。只需要指挥你的AI演员，把整个剧演好，把这个故事生动展现出来。

这一点我觉得是最重要的。在这种情况下，拼的不再是技术，而是创意。因此，跟许多人的期待不同，他们认为我有了这个后就可以在各个平台上刷出各种视频，甚至万一哪个火了，我觉得那并不重要。

在这样的情况下，拼数量已经没有什么优势，我认为能够用现在的技术讲好一个故事，展现出有趣的视频更为重要。因此，我期待有更多开脑洞的优秀作品。

这就是我给你介绍的纳米AI，希望它能够帮助你做出非常有意思的视频。在退出之前，别忘了关注我的公众号知识星球小暴铜，也叫预数之蓝，点赞、关注、评论、转发！

我是王淑玉老师。

不会设计分镜的我，却用AI导演了一部完整短片

相关推荐

AI时代不掉队每日必知AI圈那些事儿7.4

很火的独居治愈女孩视频工作流来了

I Tried Working In a Fast Food Restaurant

OpenAI Reveals Their Plans For 2025 In An Exclusive Interview...

Why Gemini 2.5 Pro Might Be Google’s Biggest AI Breakthrough Yet

SpaceX's Plan To Replace Air Travel: Starship Point-to-Point Explained!

刷机逆天！米家温度计 3 mini 秒变全能无线仪表盘，热水器温度、电脑功耗随心看

Elon Musk : How to Build the Future

How to Prepare for a Podcast Interview (As A Host)

How To Build The Future: Sam Altman

Alexandr Wang: Building Scale AI, Transforming Work With Agents & Competing With China

A deep conversation about Shorts with Jenny Hoyos and Todd Sherman