Skip to main content

AI视频生成流程

1.人类必要的思考

故事的风格,主题,大致的框架。

设定好出现的人物,所处的环境,时代背景等。

视频的长度,节奏,风格。

视频主题/故事概念:[故事概念]
目标平台:[例如:抖音/TikTok、B站/YouTube长视频、产品广告片、微电影]
视频时长:[例如:30秒、3分钟]
视频基调:[例如:悬疑、感人、幽默、高燃、极简科技风]
目标受众:[例如:年轻职场人、宝妈、科技爱好者]

---

比如:

一个略有些幽默的西方奇幻故事,讲的是男主突然从现代世界穿越过来运用先进的知识生存下去的事情。

出现的人物:

男主 - 25岁 - 上班族,高瘦 - 有幽默感的死宅

异世界 - 精灵魔法师 - 女性 - 穿华丽的法师袍 - 性格高冷但善良

怪物 - 两只魔狼 - 低级生物

30秒一集的短视频,横屏,平均每个镜头3~6秒,写实画风,颜色比较丰富活泼

-

第一集讲的是男主突然穿越并在遭遇魔狼袭击的时候遇到精灵魔法师的剧情

2.AI辅助生成故事大纲/分镜

可以将故事的大致情况输入AI ,获取一个更加详细的大纲,可能单次生成的效果不满意,可以加入人类的修改再次生成。

需要使用提示词工程:

提示词工程是一种文本段落,用来使得AI 可以根据特定的指令更好的输出满足要求的内容。

相比无系统提示词的输出,带有优化过的系统提示词的输出显著的更好。

这里可以实际体验 试错来感知。

镜号 景别/运镜 画面描述 (Visual) 台词/旁白 (Audio) 音效/配乐 (SFX/BGM) 预估时长 AI绘画提示词 (Midjourney Prompts)
1 大特写
(ECU)
极快节奏。 满是油光的手指在机械键盘上飞快敲击。回车键被重重按下。 SFX:
噼里啪啦的键盘声 + 重击回车声。
1s Extreme close up shot on fingers typing furiously on a mechanical keyboard, office lighting, sweat on skin, motion blur, high detail --ar 16:9 --v 6.0
2 特写
(CU)
男主疲惫的脸,眼镜反光着电脑蓝屏的死光。他张嘴刚要把一片薯片送进嘴里。 男主:
“搞定,下班。”
SFX:
办公室电流底噪。
1.5s Close up of a tired asian man's face, glasses reflecting blue computer screen light, dark circles under eyes, holding a potato chip to his mouth, office background, realistic style --ar 16:9 --v 6.0
3 主观/特效
(POV/VFX)
穿越发生点。 电脑屏幕突然爆发出强烈的白光,随之而来的是像素崩塌效果。现实世界的办公室墙壁像俄罗斯方块一样瓦解,变成绿色的0和1数据流,直冲镜头。 SFX:
刺耳的电子故障音 (Glitch noise) -> 转为巨大的吸力风声。
1.5s First person view, computer screen crying white light, reality disintegrating into pixelated glitches and binary code matrix green data streams, surreal visual effects, sci-fi transition --ar 16:9 --v 6.0
4 旋转/过场
(Spin)
视觉转化。 绿色的数据流瞬间变成了金色的魔法光点和花瓣。画面快速旋转,模糊不清。 SFX:
风声中混杂着如同在大教堂般的空灵回响。
1s Abstract transition shot, digital green binary code morphing into magical golden particles and flower petals, motion blur, swirling vortex, fantasy magic effect --ar 16:9 --v 6.0
5 全景 -> 坠落
(Wide Shot)
男主从半空中的一个发光裂缝中掉出来,重重地摔在草堆里。西装与原始森林格格不入。 男主:
“啊——!”
SFX:
短促的尖叫 + 沉闷的落地声 (Thud)。
2s Wide shot, a man in business suit falling from a glowing magical rift in the sky, landing in a lush fantasy forest, dynamic pose, motion blur, vibrant green forest background --ar 16:9 --v 6.0
6 特写
(CU)
男主从草地上抬起头,眼镜歪了。嘴里的薯片还在,他下意识地嚼了一口——“咔嚓”。
SFX:
清脆的咀嚼声 (Crunch)。
BGM:
此处静音,突出咀嚼声。
2s Close up of man ending up on grass, glasses askew, bewildered expression, chewing a chip, dirt on face, detailed skin texture, fantasy forest lighting --ar 16:9 --v 6.0
7 特写/腿部
(Low Angle)
镜头只拍地面。巨大的黑色狼爪重重踩在男主面前的泥土上,地面震动,泥土飞溅。 男主(OS):
“这狗...是不是有点大?”
SFX:
沉重的脚步声 (BOOM)。
2s Low angle close up graphic shot, giant monstrous wolf paw stepping on mud, sharp claws, debris flying, ground level view, menacing atmosphere --ar 16:9 --v 6.0
8 中景/双人
(Medium Shot)
危机时刻。 男主依然坐在地上,两只魔狼从左右包夹,张开血盆大口。男主举着薯片袋子当盾牌(荒诞感)。 男主:
“别吃我!我...我有高热量垃圾食品!”
SFX:
魔狼低吼。
BGM:
急促的定音鼓起。
3s Medium shot, frightened man holding a chip bag like a shield, two giant black wolves flanking him, teeth bared, saliva dripping, cinematic composition, depth of field, danger --ar 16:9 --v 6.0
9 特写/慢动作
(Macro/Slow Mo)
关键动作。 魔狼跃起扑向镜头的瞬间,它的瞳孔急剧收缩。一颗发光的火球/光弹在画面边缘切入。 SFX:
时间静止的“嗡”声。
2s Macro shot of a wolf's eye, pupil dilating, reflection of a magic fireball approaching, extreme detail, slow motion capture, cinematic lighting --ar 16:9 --v 6.0
10 中远景/侧拍
(Side Shot)
魔法冲击。 光弹击中魔狼侧腹,将其轰飞出画面。没有血腥,只有绚丽的魔法粒子爆炸。 SFX:
巨大的爆炸声 + 魔法吟唱的回声。
3s Action shot, magic spell hitting a wolf, explosion of magical light and smoke, wolf body flying away, dynamic impact, particle effects, fantasy combat --ar 16:9 --v 6.0
11 推镜头/仰拍
(Dolly In)
女主亮相。 镜头缓缓推向高处的精灵魔法师。她没有看男主,而是优雅地吹灭法杖尖端的余烟。 女主:
“如果你想用那个袋子喂它...”
BGM:
恢弘、神圣的交响乐高潮。
5s Low angle medium shot, beautiful elf female mage, blowing smoke from magic staff, elegant pose, looking cool, intricate robes, magical forest background, rim lighting, ethereal beauty --ar 16:9 --v 6.0
12 特写/反应
(Reaction Shot)
镜头切回男主,这一刻他完全被迷住了(而不是被救后的庆幸)。推了推眼镜。 女主(OS):
“...那你确实该死。”
男主:
“好...好美的高级NPC。”
SFX:
喜剧效果的“叮”一声。
BGM:
骤停。
3s Close up of man's face, expression of pure amazement and infatuation, adjusting his glasses, mouth slightly open, soft focus background --ar 16:9 --v 6.0
13 Logo/字幕 黑屏,出剧名《异界求生:我用科学喂精灵》。
音效:
打字机声音。
3s
3.创建人物角色

为了使之后生成的关键帧图片可以固定角色,需要先给我们的人物角色创建一个三视图用来参考。

这个可以自己创作,也可以用AI 来辅助创作。

1. 男主:李维 (暂名) —— “硬核加班族 / 吐槽役死宅”

视觉核心: 看起来有点聪明,但身体很虚弱;一身廉价的现代工业感,与大自然格格不入。

  • 面部特征 (Face & Hair):
    • 发型: 黑色短发,稍微有点长,因为没空理发而显得凌乱(刚睡醒或刚抓过头)。
    • 五官: 典型的东亚青年面孔。皮肤苍白(长期不见阳光的办公室肤色),有轻微的黑眼圈。
    • 关键道具: 细框金属眼镜。这是他“智慧/死宅”的本体。惊讶时会滑落,装逼时会反光。
  • 服装 (Outfit):
    • 标配: 一套略显宽松的廉价深蓝色西装,白衬衫的第一颗扣子解开了,领带歪在一边。
    • 细节: 脖子上挂着蓝色的工牌带(上面印着某大厂LOGO),穿越后一直挂着,显得非常荒诞。脚穿黑色皮鞋。
  • 体态 (Body Language):
    • 高瘦,有点驼背(长期坐姿)。
    • 遇到危险时的第一反应不是拔剑,而是抱头或者按眼镜。

Midjourney 提示词参考:

Character design sheet, full body shot, male protagonist, 25 years old asian office worker, tall and thin, messy black hair, wearing glasses, pale skin, dark circles under eyes, wearing a cheap messy dark blue business suit with loose tie, white shirt, wearing a blue id badge lanyard around neck, holding a bag of potato chips, awkward posture, bewildered expression, photorealistic, hyper detailed, cinematic lighting, 8k --ar 9:16 --v 6.0


2. 精灵魔法师:艾莉亚 (暂名) —— “行走的特效包 / 傲娇富婆”

视觉核心: 高不可攀的纯净感。她的每一个像素都要透露出“我很贵,别碰我”的气息。

  • 面部特征 (Face & Hair):
    • 发型: 银白色(Silver/Platinum)长发,微卷,柔顺得反重力,发丝间可能编织着发光的小饰品。
    • 五官: 有西方奇幻特征,尖耳朵(必须明显),瞳孔颜色为透亮的翡翠绿冰蓝色,眼神冷漠sharpe。皮肤毫无瑕疵,白得发光。
  • 服装 (Outfit):
    • 风格: 并非暴露的比基尼铠甲,而是多层次的华丽法师长袍
    • 材质: 丝绸、天鹅绒与轻型金属的结合。主色调建议为白色配金边,或者森绿色配银饰(为了与森林背景区分,推荐白金配色)。
    • 细节: 衣服上有流动的符文光泽。
  • 武器 (Weapon):
    • 一根比她人还高的扭曲木质法杖,顶端镶嵌巨大的发光水晶。
  • 体态 (Body Language):
    • 站姿挺拔,下巴微扬,总是用看垃圾的眼神看男主(初期)。

Midjourney 提示词参考:

Character design sheet, full body shot, female elf mage, ethereal beauty, long silver hair, pointed ears, piercing emerald green eyes, arrogant cold expression, wearing luxurious intricate white and gold fantasy mage robes with glowing runes, holding a tall magical wooden staff with a floating crystal, glowing aura, majestic pose, photorealistic, hyper detailed, cinematic lighting, fantasy concept art, 8k --ar 9:16 --v 6.0

Gemini_Generated_Image_vhqqltvhqqltvhqq.jpg

kling_20251121_文生图__1__写实风格_精_4613_2.png

4.根据获得的分镜来生成关键帧

使用支持角色参考的图片生成模型来制作关键帧。

这是整个视频生产过程中耗时最长的部分,一些复杂的镜头可能还需要生成首尾帧才能在之后实现理想的视频生成效果。