# 调查和研究

# KTV热舞秀

##### [https://www.youtube.com/watch?v=anL1L5c3ojA](https://www.youtube.com/watch?v=anL1L5c3ojA)

##### **整体分析**

KTV是典型**群体社交娱乐空间**

热舞秀 = 封闭空间内的氛围营销 + 情绪价值型消费

<table id="bkmrk-%E7%B1%BB%E5%88%AB-%E5%88%B6%E4%BD%9C-%E5%86%85%E5%AE%B9-%E7%89%B9%E5%BE%81-%E7%9B%AE%E6%A0%87-ktv%E7%83%AD%E8%88%9E" style="width: 100%;"><thead><tr><th style="width: 14.5859%;">类别</th><th style="width: 23.733%;">制作</th><th style="width: 19.7775%;">内容</th><th style="width: 20.8875%;">特征</th><th style="width: 21.1396%;">目标</th></tr></thead><tbody><tr><td style="width: 14.5859%;">**KTV热舞秀**</td><td style="width: 23.733%;">半专业/商业化制作，现场大屏 + 灯光 + DJ EDM</td><td style="width: 19.7775%;">持续高能节奏，几乎无剧情</td><td style="width: 20.8875%;">性感舞者<span style="color: rgb(45, 194, 107);">近景</span>、动态灯光、大场景舞台感</td><td style="width: 21.1396%;">**刺激现场氛围**、引发群体情绪共振</td></tr><tr><td style="width: 14.5859%;">**KPOP MV**</td><td style="width: 23.733%;">完全专业制作，韩国娱乐公司出品，拍摄+后期精细化</td><td style="width: 19.7775%;">有音乐结构和编舞，部分剧情</td><td style="width: 20.8875%;"><span style="color: rgb(45, 194, 107);">偶像化</span>塑造、高度时尚造型</td><td style="width: 21.1396%;">**偶像魅力+音乐审美享受**</td></tr><tr><td style="width: 14.5859%;">**短视频美女跳舞**</td><td style="width: 23.733%;">用户生产或半专业制作，竖屏</td><td style="width: 19.7775%;">15-60秒快节奏，碎片化内容</td><td style="width: 20.8875%;">主打颜值特写，背景随意</td><td style="width: 21.1396%;">**<span style="color: rgb(45, 194, 107);">短时</span>视觉满足**、迎合算法推送的即时新鲜感</td></tr></tbody></table>

热舞秀 相对于 KPOP MV来说，**距离感更近，**用来获得 和 现场夜店表演 类似的体验。

##### **性吸引力引导群体氛围**

- **KTV热舞秀**：<span style="color: rgb(45, 194, 107);">直接的性感刺激</span>。直给的性感呈现配合EDM节奏，对群体情绪刺激强烈；易让年轻用户在社交聚会中产生兴奋感和代入感。
- **KPOP MV**：<span style="color: rgb(45, 194, 107);">艺术化的，克制的性感刺激</span>。性感因素多封装在偶像滤镜与舞蹈服装中，偏艺术化、不能直接转化为夜店式氛围。
- **短视频美女跳舞**：性感程度取决于视频创作者风格，用户多为<span style="color: rgb(45, 194, 107);">独立私密观看</span>，不构成现场共享氛围。

##### **搞怪类舞蹈活跃氛围**

也许也可以引入网络流行梗，一些恶搞舞蹈等，创造差异化体验，让用户在搞笑中缓解尴尬。

##### **主题化**

将内容风格主题化，可以明确用户对内容风格的预期，适配更多人的偏好。

##### **近距离感**

在内容制作中，保持对用户的近距离感，可以产生更好的体验。

近距离感是指：就好像舞者在专门面向用户舞蹈，在与用户进行交流的感觉（镜头运动方式，眼神，肢体动作等），创造出一种，打破屏幕隔阂的幻觉。

具体的：眼神的方向保持在正前方，一些前倾的动作，拉近镜头的运镜等

##### **感官传递路径**

1. 通过直接强烈，性感的 <span style="color: rgb(53, 152, 219);">视觉刺激</span>，吸引注意力
2. 通过<span style="color: rgb(53, 152, 219);">音乐节奏</span>，强化身心反应（精神兴奋度）
3. 通过舞台式场景，<span style="color: rgb(53, 152, 219);">灯光环境</span>等，模拟夜店体验，引发群体共振（的基础）

##### **需要防止陷入单一性别视角**

> **此处不考虑占比较低的 同性恋 群体**

当前似乎总是**默认表演的主体是<span style="color: rgb(230, 126, 35);">女性</span>**，这会默认将该内容的消费主体预设为男性。

因为此形式必须提供直接的，性感的，感官刺激，因此其可能不得已包含<span style="color: rgb(230, 126, 35);">男性凝视</span>的成分（若不是，则可能无法拉开与 KPOP 偶像MV 的差异？），这会阻碍女性用户对此内容的感受。

可以进一步讨论，增加男性为表演主体的可能性（面向女性用户），以及 <span style="color: rgb(230, 126, 35);">男女双人热舞</span> 的可能性（增加讨论度？）。

##### **插入可交互环节**

可交互环节，可以进一步提高用户的参与感，类似夜店的 **Dance Challenge 或 Battle 环节。**

可能的形式：

1. 引导<span style="color: rgb(53, 152, 219);">跟随摆动</span>，引导用户用简单的动作跟随节奏
2. 引导<span style="color: rgb(53, 152, 219);">记录传播</span>，引导用户站在舞台上与屏幕中的舞者共同舞动，或做一些简单动作，并拍摄下来
3. 引导<span style="color: rgb(53, 152, 219);">彼此互动</span>，引导用户彼此之间进行互动，比如情侣动作，非常简单的多人组合动作（比如牵手摇摆等）

这种互动应该足够简单，无门槛参与，甚至可以不需要用户从座位上站起来。（和 天天跳舞 这样的互动产生差异性）

##### **此内容和DJ电音派对形式区别**

<table id="bkmrk-%E4%BD%93%E9%AA%8C%E7%B1%BB%E5%9E%8B-%E8%A7%86%E8%A7%89%E8%A1%A8%E7%8E%B0-%E5%90%AC%E8%A7%89%E6%95%88%E6%9E%9C-%E4%BD%93%E6%84%9F%E6%B0%9B%E5%9B%B4-" style="width: 104.444%; height: 85.3907px;"><thead><tr style="height: 25.7969px;"><th style="width: 11.4957%; height: 25.7969px;">体验类型</th><th style="width: 28.6774%; height: 25.7969px;">视觉表现</th><th style="width: 13.843%; height: 25.7969px;">听觉效果</th><th style="width: 11.6205%; height: 25.7969px;">体感氛围</th><th style="width: 22.6205%; height: 25.7969px;">交互方式</th><th style="width: 11.8665%; height: 25.7969px;">适合人数</th></tr></thead><tbody><tr style="height: 29.7969px;"><td style="width: 11.4957%; height: 29.7969px;">DJ秀</td><td style="width: 28.6774%; height: 29.7969px;">真 DJ 表演（上半身）</td><td style="width: 13.843%; height: 29.7969px;">EDM</td><td style="width: 11.6205%; height: 29.7969px;">灯光氛围</td><td style="width: 22.6205%; height: 29.7969px;">跟随摆动（MJ 喊麦调动）</td><td style="width: 11.8665%; height: 29.7969px;">单人</td></tr><tr style="height: 29.7969px;"><td style="width: 11.4957%; height: 29.7969px;">热舞秀</td><td style="width: 28.6774%; height: 29.7969px;">真人舞蹈动作（全身）/ <span style="color: rgb(22, 145, 121);">虚拟角色</span></td><td style="width: 13.843%; height: 29.7969px;">EDM/流行音乐</td><td style="width: 11.6205%; height: 29.7969px;">灯光氛围</td><td style="width: 22.6205%; height: 29.7969px;">跟随摆动 / 另外两种引导</td><td style="width: 11.8665%; height: 29.7969px;">单人或多人</td></tr></tbody></table>

##### **合规风险控制**

<span style="color: rgb(224, 62, 45);">**性感 不等于 性** </span>**\[有点拧巴不过大体是这样\]**

主要在于将内容尺度控制在合适的区间，避免损伤品牌形象，或违法违规。

1. 避免使用暴露特殊部位的服装，以及通常认为的较低俗服装（“三点式”、“丁字裤”等）
2. 可参照直播平台的审核标准（直播平台的 颜值，娱乐区，短视频平台的类似风格内容）
3. 避免直接的低俗动作

# AI音频可视化

[https://www.youtube.com/watch?v=D0EIxRJcIo4](https://www.youtube.com/watch?v=D0EIxRJcIo4)

[https://www.youtube.com/watch?v=jCqnlgcHzas](https://www.youtube.com/watch?v=jCqnlgcHzas)

ComfyUI\_Yvann-Nodes

[https://github.com/yolain/ComfyUI-Yolain-Workflows](https://github.com/yolain/ComfyUI-Yolain-Workflows)

[https://github.com/tencent-ailab/SongGeneration](https://github.com/tencent-ailab/SongGeneration)

[https://www.youtube.com/watch?v=YxXst\_HnC6k](https://www.youtube.com/watch?v=YxXst_HnC6k)

##### 0基础 低成本｜我们用ai做的乐队VJ

[https://www.bilibili.com/video/BV1om7DzPEa8/?spm\_id\_from=..search-card.all.click](https://www.bilibili.com/video/BV1om7DzPEa8/?spm_id_from=..search-card.all.click)

# AI视频生成流程

##### 1.人类必要的思考

故事的风格，主题，大致的框架。

设定好出现的人物，所处的环境，时代背景等。

视频的长度，节奏，风格。

> 视频主题/故事概念：\[故事概念\]  
> 目标平台：\[例如：抖音/TikTok、B站/YouTube长视频、产品广告片、微电影\]  
> 视频时长：\[例如：30秒、3分钟\]  
> 视频基调：\[例如：悬疑、感人、幽默、高燃、极简科技风\]  
> 目标受众：\[例如：年轻职场人、宝妈、科技爱好者\]

\---

比如：

<span style="color: rgb(35, 111, 161);">一个略有些幽默的西方奇幻故事，讲的是男主突然从现代世界穿越过来运用先进的知识生存下去的事情。</span>

<span style="color: rgb(35, 111, 161);">出现的人物：</span>

<span style="color: rgb(35, 111, 161);">男主 - 25岁 - 上班族，高瘦 - 有幽默感的死宅</span>

<span style="color: rgb(35, 111, 161);">异世界 - 精灵魔法师 - 女性 - 穿华丽的法师袍 - 性格高冷但善良</span>

<span style="color: rgb(35, 111, 161);">怪物 - 两只魔狼 - 低级生物</span>

<span style="color: rgb(35, 111, 161);">30秒一集的短视频，横屏，平均每个镜头3～6秒，写实画风，颜色比较丰富活泼</span>

<span style="color: rgb(35, 111, 161);">-</span>

<span style="color: rgb(35, 111, 161);">第一集讲的是男主突然穿越并在遭遇魔狼袭击的时候遇到精灵魔法师的剧情</span>

##### 2.AI辅助生成故事大纲/分镜

可以将故事的大致情况输入AI ，获取一个更加详细的大纲，可能单次生成的效果不满意，可以加入人类的修改再次生成。

> **需要使用提示词工程：**
> 
> 提示词工程是一种文本段落，用来使得AI 可以根据特定的指令更好的输出满足要求的内容。
> 
> 相比无系统提示词的输出，带有优化过的系统提示词的输出显著的更好。

这里可以实际体验 试错来感知。

<table id="bkmrk-%E9%95%9C%E5%8F%B7-%E6%99%AF%E5%88%AB%2F%E8%BF%90%E9%95%9C-%E7%94%BB%E9%9D%A2%E6%8F%8F%E8%BF%B0-%28visua" style="width: 100%;"><thead><tr><th style="width: 4.20272%;">镜号</th><th style="width: 6.05686%;">景别/运镜</th><th style="width: 27.8121%;">画面描述 (Visual)</th><th style="width: 9.02349%;">台词/旁白 (Audio)</th><th style="width: 12.2373%;">音效/配乐 (SFX/BGM)</th><th style="width: 4.82077%;">预估时长</th><th style="width: 35.7231%;">AI绘画提示词 (Midjourney Prompts)</th></tr></thead><tbody><tr><td style="width: 4.20272%;">**1**</td><td style="width: 6.05686%;">**大特写**  
(ECU)</td><td style="width: 27.8121%;">**极快节奏。** 满是油光的手指在机械键盘上飞快敲击。回车键被重重按下。</td><td style="width: 9.02349%;">无</td><td style="width: 12.2373%;">**SFX：**  
噼里啪啦的键盘声 + 重击回车声。</td><td style="width: 4.82077%;">1s</td><td style="width: 35.7231%;">**Extreme close up shot on fingers typing furiously on a mechanical keyboard, office lighting, sweat on skin, motion blur, high detail --ar 16:9 --v 6.0**</td></tr><tr><td style="width: 4.20272%;">**2**</td><td style="width: 6.05686%;">**特写**  
(CU)</td><td style="width: 27.8121%;">男主疲惫的脸，眼镜反光着电脑蓝屏的死光。他张嘴刚要把一片薯片送进嘴里。</td><td style="width: 9.02349%;">**男主：**  
“搞定，下班。”</td><td style="width: 12.2373%;">**SFX：**  
办公室电流底噪。</td><td style="width: 4.82077%;">1.5s</td><td style="width: 35.7231%;">**Close up of a tired asian man's face, glasses reflecting blue computer screen light, dark circles under eyes, holding a potato chip to his mouth, office background, realistic style --ar 16:9 --v 6.0**</td></tr><tr><td style="width: 4.20272%;">**3**</td><td style="width: 6.05686%;">**主观/特效**  
(POV/VFX)</td><td style="width: 27.8121%;">**穿越发生点。** 电脑屏幕突然爆发出强烈的白光，随之而来的是**像素崩塌效果**。现实世界的办公室墙壁像俄罗斯方块一样瓦解，变成绿色的0和1数据流，直冲镜头。</td><td style="width: 9.02349%;">无</td><td style="width: 12.2373%;">**SFX：**  
刺耳的电子故障音 (Glitch noise) -&gt; 转为巨大的吸力风声。</td><td style="width: 4.82077%;">1.5s</td><td style="width: 35.7231%;">**First person view, computer screen crying white light, reality disintegrating into pixelated glitches and binary code matrix green data streams, surreal visual effects, sci-fi transition --ar 16:9 --v 6.0**</td></tr><tr><td style="width: 4.20272%;">**4**</td><td style="width: 6.05686%;">**旋转/过场**  
(Spin)</td><td style="width: 27.8121%;">**视觉转化。** 绿色的数据流瞬间变成了金色的魔法光点和花瓣。画面快速旋转，模糊不清。</td><td style="width: 9.02349%;">无</td><td style="width: 12.2373%;">**SFX：**  
风声中混杂着如同在大教堂般的空灵回响。</td><td style="width: 4.82077%;">1s</td><td style="width: 35.7231%;">**Abstract transition shot, digital green binary code morphing into magical golden particles and flower petals, motion blur, swirling vortex, fantasy magic effect --ar 16:9 --v 6.0**</td></tr><tr><td style="width: 4.20272%;">**5**</td><td style="width: 6.05686%;">**全景 -&gt; 坠落**  
(Wide Shot)</td><td style="width: 27.8121%;">男主从半空中的一个发光裂缝中掉出来，重重地摔在草堆里。西装与原始森林格格不入。</td><td style="width: 9.02349%;">**男主：**  
“啊——！”</td><td style="width: 12.2373%;">**SFX：**  
短促的尖叫 + 沉闷的落地声 (Thud)。</td><td style="width: 4.82077%;">2s</td><td style="width: 35.7231%;">**Wide shot, a man in business suit falling from a glowing magical rift in the sky, landing in a lush fantasy forest, dynamic pose, motion blur, vibrant green forest background --ar 16:9 --v 6.0**</td></tr><tr><td style="width: 4.20272%;">**6**</td><td style="width: 6.05686%;">**特写**  
(CU)</td><td style="width: 27.8121%;">男主从草地上抬起头，眼镜歪了。嘴里的薯片还在，他下意识地嚼了一口——“咔嚓”。</td><td style="width: 9.02349%;">  
</td><td style="width: 12.2373%;">**SFX：**  
清脆的咀嚼声 (Crunch)。  
**BGM：**  
此处静音，突出咀嚼声。</td><td style="width: 4.82077%;">2s</td><td style="width: 35.7231%;">**Close up of man ending up on grass, glasses askew, bewildered expression, chewing a chip, dirt on face, detailed skin texture, fantasy forest lighting --ar 16:9 --v 6.0**</td></tr><tr><td style="width: 4.20272%;">**7**</td><td style="width: 6.05686%;">**特写/腿部**  
(Low Angle)</td><td style="width: 27.8121%;">镜头只拍地面。巨大的黑色狼爪重重踩在男主面前的泥土上，地面震动，泥土飞溅。</td><td style="width: 9.02349%;">**男主(OS)：**  
“这狗...是不是有点大？”</td><td style="width: 12.2373%;">**SFX：**  
沉重的脚步声 (BOOM)。</td><td style="width: 4.82077%;">2s</td><td style="width: 35.7231%;">**Low angle close up graphic shot, giant monstrous wolf paw stepping on mud, sharp claws, debris flying, ground level view, menacing atmosphere --ar 16:9 --v 6.0**</td></tr><tr><td style="width: 4.20272%;">**8**</td><td style="width: 6.05686%;">**中景/双人**  
(Medium Shot)</td><td style="width: 27.8121%;">**危机时刻。** 男主依然坐在地上，两只魔狼从左右包夹，张开血盆大口。男主举着薯片袋子当盾牌（荒诞感）。</td><td style="width: 9.02349%;">**男主：**  
“别吃我！我...我有高热量垃圾食品！”</td><td style="width: 12.2373%;">**SFX：**  
魔狼低吼。  
**BGM：**  
急促的定音鼓起。</td><td style="width: 4.82077%;">3s</td><td style="width: 35.7231%;">**Medium shot, frightened man holding a chip bag like a shield, two giant black wolves flanking him, teeth bared, saliva dripping, cinematic composition, depth of field, danger --ar 16:9 --v 6.0**</td></tr><tr><td style="width: 4.20272%;">**9**</td><td style="width: 6.05686%;">**特写/慢动作**  
(Macro/Slow Mo)</td><td style="width: 27.8121%;">**关键动作。** 魔狼跃起扑向镜头的瞬间，它的瞳孔急剧收缩。一颗**发光的火球/光弹**在画面边缘切入。</td><td style="width: 9.02349%;">无</td><td style="width: 12.2373%;">**SFX：**  
时间静止的“嗡”声。</td><td style="width: 4.82077%;">2s</td><td style="width: 35.7231%;">**Macro shot of a wolf's eye, pupil dilating, reflection of a magic fireball approaching, extreme detail, slow motion capture, cinematic lighting --ar 16:9 --v 6.0**</td></tr><tr><td style="width: 4.20272%;">**10**</td><td style="width: 6.05686%;">**中远景/侧拍**  
(Side Shot)</td><td style="width: 27.8121%;">**魔法冲击。** 光弹击中魔狼侧腹，将其轰飞出画面。没有血腥，只有绚丽的魔法粒子爆炸。</td><td style="width: 9.02349%;">无</td><td style="width: 12.2373%;">**SFX：**  
巨大的爆炸声 + 魔法吟唱的回声。</td><td style="width: 4.82077%;">3s</td><td style="width: 35.7231%;">**Action shot, magic spell hitting a wolf, explosion of magical light and smoke, wolf body flying away, dynamic impact, particle effects, fantasy combat --ar 16:9 --v 6.0**</td></tr><tr><td style="width: 4.20272%;">**11**</td><td style="width: 6.05686%;">**推镜头/仰拍**  
(Dolly In)</td><td style="width: 27.8121%;">**女主亮相。** 镜头缓缓推向高处的精灵魔法师。她没有看男主，而是优雅地吹灭法杖尖端的余烟。</td><td style="width: 9.02349%;">**女主：**  
“如果你想用那个袋子喂它...”</td><td style="width: 12.2373%;">**BGM：**  
恢弘、神圣的交响乐高潮。</td><td style="width: 4.82077%;">5s</td><td style="width: 35.7231%;">**Low angle medium shot, beautiful elf female mage, blowing smoke from magic staff, elegant pose, looking cool, intricate robes, magical forest background, rim lighting, ethereal beauty --ar 16:9 --v 6.0**</td></tr><tr><td style="width: 4.20272%;">**12**</td><td style="width: 6.05686%;">**特写/反应**  
(Reaction Shot)</td><td style="width: 27.8121%;">镜头切回男主，这一刻他完全被迷住了（而不是被救后的庆幸）。推了推眼镜。</td><td style="width: 9.02349%;">**女主(OS)：**  
“...那你确实该死。”  
**男主：**  
“好...好美的高级NPC。”</td><td style="width: 12.2373%;">**SFX：**  
喜剧效果的“叮”一声。  
**BGM：**  
骤停。</td><td style="width: 4.82077%;">3s</td><td style="width: 35.7231%;">**Close up of man's face, expression of pure amazement and infatuation, adjusting his glasses, mouth slightly open, soft focus background --ar 16:9 --v 6.0**</td></tr><tr><td style="width: 4.20272%;">**13**</td><td style="width: 6.05686%;">**Logo/字幕**</td><td style="width: 27.8121%;">黑屏，出剧名《异界求生：我用科学喂精灵》。</td><td style="width: 9.02349%;">  
</td><td style="width: 12.2373%;">**音效：**  
打字机声音。</td><td style="width: 4.82077%;">3s</td></tr></tbody></table>

##### 3.创建人物角色

为了使之后生成的关键帧图片可以固定角色，需要先给我们的人物角色创建一个三视图用来参考。

这个可以自己创作，也可以用AI 来辅助创作。

> **1. 男主：李维 (暂名) —— “硬核加班族 / 吐槽役死宅”**
> 
> **视觉核心：** 看起来有点聪明，但身体很虚弱；一身廉价的现代工业感，与大自然格格不入。
> 
> - **面部特征 (Face &amp; Hair)：**
>     - **发型：** 黑色短发，稍微有点长，因为没空理发而显得凌乱（刚睡醒或刚抓过头）。
>     - **五官：** 典型的东亚青年面孔。皮肤苍白（长期不见阳光的办公室肤色），有轻微的黑眼圈。
>     - **关键道具：** **细框金属眼镜**。这是他“智慧/死宅”的本体。惊讶时会滑落，装逼时会反光。
> - **服装 (Outfit)：**
>     - **标配：** 一套略显宽松的**廉价深蓝色西装**，白衬衫的第一颗扣子解开了，领带歪在一边。
>     - **细节：** 脖子上挂着**蓝色的工牌带**（上面印着某大厂LOGO），穿越后一直挂着，显得非常荒诞。脚穿黑色皮鞋。
> - **体态 (Body Language)：**
>     - 高瘦，有点驼背（长期坐姿）。
>     - 遇到危险时的第一反应不是拔剑，而是抱头或者按眼镜。
> 
> **Midjourney 提示词参考：**
> 
> **Character design sheet, full body shot, male protagonist, 25 years old asian office worker, tall and thin, messy black hair, wearing glasses, pale skin, dark circles under eyes, wearing a cheap messy dark blue business suit with loose tie, white shirt, wearing a blue id badge lanyard around neck, holding a bag of potato chips, awkward posture, bewildered expression, photorealistic, hyper detailed, cinematic lighting, 8k --ar 9:16 --v 6.0**
> 
> ---
> 
> **2. 精灵魔法师：艾莉亚 (暂名) —— “行走的特效包 / 傲娇富婆”**
> 
> **视觉核心：** **高不可攀**的纯净感。她的每一个像素都要透露出“我很贵，别碰我”的气息。
> 
> - **面部特征 (Face &amp; Hair)：**
>     - **发型：** 银白色（Silver/Platinum）长发，微卷，柔顺得反重力，发丝间可能编织着发光的小饰品。
>     - **五官：** 有西方奇幻特征，尖耳朵（必须明显），瞳孔颜色为**透亮的翡翠绿**或**冰蓝色**，眼神冷漠sharpe。皮肤毫无瑕疵，白得发光。
> - **服装 (Outfit)：**
>     - **风格：** 并非暴露的比基尼铠甲，而是**多层次的华丽法师长袍**。
>     - **材质：** 丝绸、天鹅绒与轻型金属的结合。主色调建议为**白色配金边**，或者**森绿色配银饰**（为了与森林背景区分，推荐白金配色）。
>     - **细节：** 衣服上有流动的符文光泽。
> - **武器 (Weapon)：**
>     - 一根比她人还高的**扭曲木质法杖**，顶端镶嵌巨大的发光水晶。
> - **体态 (Body Language)：**
>     - 站姿挺拔，下巴微扬，总是用看垃圾的眼神看男主（初期）。
> 
> **Midjourney 提示词参考：**
> 
> **Character design sheet, full body shot, female elf mage, ethereal beauty, long silver hair, pointed ears, piercing emerald green eyes, arrogant cold expression, wearing luxurious intricate white and gold fantasy mage robes with glowing runes, holding a tall magical wooden staff with a floating crystal, glowing aura, majestic pose, photorealistic, hyper detailed, cinematic lighting, fantasy concept art, 8k --ar 9:16 --v 6.0**

##### [![Gemini_Generated_Image_vhqqltvhqqltvhqq.jpg](https://doc.3efs.com/uploads/images/gallery/2025-11/scaled-1680-/hvcXUhpAxRdYHHxb-gemini-generated-image-vhqqltvhqqltvhqq.jpg)](https://doc.3efs.com/uploads/images/gallery/2025-11/hvcXUhpAxRdYHHxb-gemini-generated-image-vhqqltvhqqltvhqq.jpg)

[![kling_20251121_文生图__1__写实风格_精_4613_2.png](https://doc.3efs.com/uploads/images/gallery/2025-11/scaled-1680-/RbHJ4BC7TgvzS8Gc-kling-20251121-1-4613-2.png)](https://doc.3efs.com/uploads/images/gallery/2025-11/RbHJ4BC7TgvzS8Gc-kling-20251121-1-4613-2.png)

##### 4.根据获得的分镜来生成关键帧

使用支持角色参考的图片生成模型来制作关键帧。

这是整个视频生产过程中耗时最长的部分，一些复杂的镜头可能还需要生成首尾帧才能在之后实现理想的视频生成效果。

# 文档：送祝福和AI音频

##### PART1  
**上屏功能UX体验**

**上屏交互统一存在的**

1.手机操作体验  
现状：可以上屏的功能被划分为多个大图标，与AI写歌等并列  
问题：每个一屏只能看到两个大图标，无法快速找到想要的功能，或者无法概览所有功能  
建议：缩小图标大小，或增加完整功能列表

2.交互后反馈  
现状：用户提交上屏请求后，显示提交成功的提示  
问题：因为从提交到大屏幕反应有延迟，用户可能会感到困惑，以为卡了，或不知道是否成功  
建议：手机端增加时刻显示的提示（正在发送到大屏幕）

##### 送祝福体验

1.素材内容  
现状：素材的规格和生产时代不统一，有GIF转成的视频，有审美老旧的特效，也有新做的全屏内容  
建议：1.统一素材的规格（技术和内容层面）2.逐步替换老旧内容

2.全屏祝福  
现状1：激活后，会无提示打断正在播放的歌曲，可能导致唱歌的人尴尬  
建议1：播放全屏祝福之前给予提示，或将正在播放的音乐淡出后再开始播放

<s>现状2：全屏素材的音量和正在播放的其他内容可能不匹配</s>  
<s>建议2：对全屏播放的素材音量进行标准化处理</s>

3.用户自定义卡片  
现状3：UGC祝福卡片无法选择模板，只有一种样式  
建议3：提供多种样式供用户选择

**送祝福的AI UGC内容**

可以使用户使用内置的AI功能，生成指定风格的艺术字效果作为祝福海报  
-&gt;参考图  
技术路径：  
提示词工程 - 根据几种风格预置系统提示词，接入LLM 提供AI辅助风格生成（帮用户构建更好看的风格）  
用户输入 -&gt; 违规词审查 -&gt; LLM优化 -&gt; 拼接系统提示词 -&gt; 生图接口 -&gt; 返回图片 -&gt; 用户可以确定发送或重新尝试生成  
成本 - AI API调用 - LLM中等规格的模型（无思考） - 图片生成 国内代理 Nano Banano 2 （零售API 0.2元/次）

**发表情**

现状：部分素材过于老旧，从GIF转制视频，音效和动画不同步（音效会先播放完）  
建议：将音轨和视频轨合并，对于老硬件设备，可以优化播放逻辑

**发图片**

现状：用户可以上传1～9张图，根据图片数量自动以不同模板进行展示  
建议：1.提供拼图选项，使多图内容可以在一张图内显示，或让用户可以选择模板，该交互的需求是即时快速的分享内容到公共视野中。  
2.允许用户上传短视频（30秒以内），视频附带的声音可能会打断屏幕上播放的其他音频，因此长度需要受限（不然就变成投屏了）。

**发弹幕**

现状：用户发送预设的，或者AI编写的，或者自己编写的文本到大屏幕上  
建议：弹幕营造的氛围感需要弹幕的数量来支持，因此可以借助AI使用户一次发送多条弹幕，或者一键发送预设的弹幕雨

\-----

##### PART2   
热舞秀AI音频生成

-&gt;试听

##### 技术实现方法

选定参考音频 -&gt; 剪辑特征部分 -&gt; 变调和增噪处理（绕过suno版权内容检测）-&gt; 可用参考片段 (mp3)  
获取参考音频的歌词 -&gt; 提示词工程（AI歌词改编专家）-&gt; 新的改编歌词（脱离原歌词，保留歌曲段落结构）(txt)  
AI分析参考音频乐理风格 -&gt; suno风格提示词  
将参考片段+新的歌词+风格提示词 输入suno -&gt; 产生新的歌曲（多次生成直到获取理想曲目，或进行逐句编辑 - 高级功能需要会员订阅）

> MINIMAX Audio - 开源 - 不支持参考音频，不支持细节控制 - 支持中文 - 音质好
> 
> SUNO - 闭源 - 指令遵循好，支持中文 （平均2分钟完成）
> 
> UDIO - 闭源 - 无法严格遵循歌词（平均2分钟）
> 
> SongBloom - 本地 - 最大 300s（平均8分钟 - RTX4090）- 不支持细节控制

##### 成本预估：

LLM-高级模型-Gemini3  
Suno4.5或v5（需要订阅）- 8美元/月/500次 &amp; 96美元/年  
国内中转API调用 - 0.45人民币/次 ×无法确保企业级SLA（非用户侧的无影响）  
相比人类编曲的成本低

##### 自动化：

多agent流程，自动完成多AI协作输出结果，需要软件工程，或使用低代码平台搭建工作流（比如n8n）  
人工剪辑也可以被替代 - 自动识别歌曲的副歌部分

产能：

需要根据实际品质需求指标来确定，目前demo的产能是 5首/工作日，外部供应商目前没发现，可以先咨询在网络上提供此类服务的商家

##### 相比人类编曲的劣势：

会存在一些小瑕疵（比如吐字，部分歌词和节奏的匹配问题）  
音质不如人类编曲（v5模型有改善，但仍不如人类编曲）

**讨论（是否满足需求？），（版权问题，AI生成的内容中依然会包含原曲的标志性特征 - 这样才能做到不是一首歌但是听起来一下就想到那首歌）**

suno的用户协议 - 订阅用户可以将AI生成的内容用于商业用途

排除使用开源模型 - 目前无法进行精细控制，生成速度慢，对多语言的支持差。