# 文档：送祝福和AI音频

##### PART1  
**上屏功能UX体验**

**上屏交互统一存在的**

1.手机操作体验  
现状：可以上屏的功能被划分为多个大图标，与AI写歌等并列  
问题：每个一屏只能看到两个大图标，无法快速找到想要的功能，或者无法概览所有功能  
建议：缩小图标大小，或增加完整功能列表

2.交互后反馈  
现状：用户提交上屏请求后，显示提交成功的提示  
问题：因为从提交到大屏幕反应有延迟，用户可能会感到困惑，以为卡了，或不知道是否成功  
建议：手机端增加时刻显示的提示（正在发送到大屏幕）

##### 送祝福体验

1.素材内容  
现状：素材的规格和生产时代不统一，有GIF转成的视频，有审美老旧的特效，也有新做的全屏内容  
建议：1.统一素材的规格（技术和内容层面）2.逐步替换老旧内容

2.全屏祝福  
现状1：激活后，会无提示打断正在播放的歌曲，可能导致唱歌的人尴尬  
建议1：播放全屏祝福之前给予提示，或将正在播放的音乐淡出后再开始播放

<s>现状2：全屏素材的音量和正在播放的其他内容可能不匹配</s>  
<s>建议2：对全屏播放的素材音量进行标准化处理</s>

3.用户自定义卡片  
现状3：UGC祝福卡片无法选择模板，只有一种样式  
建议3：提供多种样式供用户选择

**送祝福的AI UGC内容**

可以使用户使用内置的AI功能，生成指定风格的艺术字效果作为祝福海报  
-&gt;参考图  
技术路径：  
提示词工程 - 根据几种风格预置系统提示词，接入LLM 提供AI辅助风格生成（帮用户构建更好看的风格）  
用户输入 -&gt; 违规词审查 -&gt; LLM优化 -&gt; 拼接系统提示词 -&gt; 生图接口 -&gt; 返回图片 -&gt; 用户可以确定发送或重新尝试生成  
成本 - AI API调用 - LLM中等规格的模型（无思考） - 图片生成 国内代理 Nano Banano 2 （零售API 0.2元/次）

**发表情**

现状：部分素材过于老旧，从GIF转制视频，音效和动画不同步（音效会先播放完）  
建议：将音轨和视频轨合并，对于老硬件设备，可以优化播放逻辑

**发图片**

现状：用户可以上传1～9张图，根据图片数量自动以不同模板进行展示  
建议：1.提供拼图选项，使多图内容可以在一张图内显示，或让用户可以选择模板，该交互的需求是即时快速的分享内容到公共视野中。  
2.允许用户上传短视频（30秒以内），视频附带的声音可能会打断屏幕上播放的其他音频，因此长度需要受限（不然就变成投屏了）。

**发弹幕**

现状：用户发送预设的，或者AI编写的，或者自己编写的文本到大屏幕上  
建议：弹幕营造的氛围感需要弹幕的数量来支持，因此可以借助AI使用户一次发送多条弹幕，或者一键发送预设的弹幕雨

\-----

##### PART2   
热舞秀AI音频生成

-&gt;试听

##### 技术实现方法

选定参考音频 -&gt; 剪辑特征部分 -&gt; 变调和增噪处理（绕过suno版权内容检测）-&gt; 可用参考片段 (mp3)  
获取参考音频的歌词 -&gt; 提示词工程（AI歌词改编专家）-&gt; 新的改编歌词（脱离原歌词，保留歌曲段落结构）(txt)  
AI分析参考音频乐理风格 -&gt; suno风格提示词  
将参考片段+新的歌词+风格提示词 输入suno -&gt; 产生新的歌曲（多次生成直到获取理想曲目，或进行逐句编辑 - 高级功能需要会员订阅）

> MINIMAX Audio - 开源 - 不支持参考音频，不支持细节控制 - 支持中文 - 音质好
> 
> SUNO - 闭源 - 指令遵循好，支持中文 （平均2分钟完成）
> 
> UDIO - 闭源 - 无法严格遵循歌词（平均2分钟）
> 
> SongBloom - 本地 - 最大 300s（平均8分钟 - RTX4090）- 不支持细节控制

##### 成本预估：

LLM-高级模型-Gemini3  
Suno4.5或v5（需要订阅）- 8美元/月/500次 &amp; 96美元/年  
国内中转API调用 - 0.45人民币/次 ×无法确保企业级SLA（非用户侧的无影响）  
相比人类编曲的成本低

##### 自动化：

多agent流程，自动完成多AI协作输出结果，需要软件工程，或使用低代码平台搭建工作流（比如n8n）  
人工剪辑也可以被替代 - 自动识别歌曲的副歌部分

产能：

需要根据实际品质需求指标来确定，目前demo的产能是 5首/工作日，外部供应商目前没发现，可以先咨询在网络上提供此类服务的商家

##### 相比人类编曲的劣势：

会存在一些小瑕疵（比如吐字，部分歌词和节奏的匹配问题）  
音质不如人类编曲（v5模型有改善，但仍不如人类编曲）

**讨论（是否满足需求？），（版权问题，AI生成的内容中依然会包含原曲的标志性特征 - 这样才能做到不是一首歌但是听起来一下就想到那首歌）**

suno的用户协议 - 订阅用户可以将AI生成的内容用于商业用途

排除使用开源模型 - 目前无法进行精细控制，生成速度慢，对多语言的支持差。