文档:送祝福和AI音频
PART1
上屏功能UX体验
上屏交互统一存在的
1.手机操作体验
现状:可以上屏的功能被划分为多个大图标,与AI写歌等并列
问题:每个一屏只能看到两个大图标,无法快速找到想要的功能,或者无法概览所有功能
建议:缩小图标大小,或增加完整功能列表
2.交互后反馈
现状:用户提交上屏请求后,显示提交成功的提示
问题:因为从提交到大屏幕反应有延迟,用户可能会感到困惑,以为卡了,或不知道是否成功
建议:手机端增加时刻显示的提示(正在发送到大屏幕)
送祝福体验
1.素材内容
现状:素材的规格和生产时代不统一,有GIF转成的视频,有审美老旧的特效,也有新做的全屏内容
建议:1.统一素材的规格(技术和内容层面)2.逐步替换老旧内容
2.全屏祝福
现状1:激活后,会无提示打断正在播放的歌曲,可能导致唱歌的人尴尬
建议1:播放全屏祝福之前给予提示,或将正在播放的音乐淡出后再开始播放
现状2:全屏素材的音量和正在播放的其他内容可能不匹配
建议2:对全屏播放的素材音量进行标准化处理
3.用户自定义卡片
现状3:UGC祝福卡片无法选择模板,只有一种样式
建议3:提供多种样式供用户选择
送祝福的AI UGC内容
可以使用户使用内置的AI功能,生成指定风格的艺术字效果作为祝福海报
->参考图
技术路径:
提示词工程 - 根据几种风格预置系统提示词,接入LLM 提供AI辅助风格生成(帮用户构建更好看的风格)
用户输入 -> 违规词审查 -> LLM优化 -> 拼接系统提示词 -> 生图接口 -> 返回图片 -> 用户可以确定发送或重新尝试生成
成本 - AI API调用 - LLM中等规格的模型(无思考) - 图片生成 国内代理 Nano Banano 2 (零售API 0.2元/次)
发表情
现状:部分素材过于老旧,从GIF转制视频,音效和动画不同步(音效会先播放完)
建议:将音轨和视频轨合并,对于老硬件设备,可以优化播放逻辑
发图片
现状:用户可以上传1~9张图,根据图片数量自动以不同模板进行展示
建议:1.提供拼图选项,使多图内容可以在一张图内显示,或让用户可以选择模板,该交互的需求是即时快速的分享内容到公共视野中。
2.允许用户上传短视频(30秒以内),视频附带的声音可能会打断屏幕上播放的其他音频,因此长度需要受限(不然就变成投屏了)。
发弹幕
现状:用户发送预设的,或者AI编写的,或者自己编写的文本到大屏幕上
建议:弹幕营造的氛围感需要弹幕的数量来支持,因此可以借助AI使用户一次发送多条弹幕,或者一键发送预设的弹幕雨
-----
PART2
热舞秀AI音频生成
->试听
技术实现方法
选定参考音频 -> 剪辑特征部分 -> 变调和增噪处理(绕过suno版权内容检测)-> 可用参考片段 (mp3)
获取参考音频的歌词 -> 提示词工程(AI歌词改编专家)-> 新的改编歌词(脱离原歌词,保留歌曲段落结构)(txt)
AI分析参考音频乐理风格 -> suno风格提示词
将参考片段+新的歌词+风格提示词 输入suno -> 产生新的歌曲(多次生成直到获取理想曲目,或进行逐句编辑 - 高级功能需要会员订阅)
MINIMAX Audio - 开源 - 不支持参考音频,不支持细节控制 - 支持中文 - 音质好
SUNO - 闭源 - 指令遵循好,支持中文 (平均2分钟完成)
UDIO - 闭源 - 无法严格遵循歌词(平均2分钟)
SongBloom - 本地 - 最大 300s(平均8分钟 - RTX4090)- 不支持细节控制
成本预估:
LLM-高级模型-Gemini3
Suno4.5或v5(需要订阅)- 8美元/月/500次 & 96美元/年
国内中转API调用 - 0.45人民币/次 ×无法确保企业级SLA(非用户侧的无影响)
相比人类编曲的成本低
自动化:
多agent流程,自动完成多AI协作输出结果,需要软件工程,或使用低代码平台搭建工作流(比如n8n)
人工剪辑也可以被替代 - 自动识别歌曲的副歌部分
产能:
需要根据实际品质需求指标来确定,目前demo的产能是 5首/工作日,外部供应商目前没发现,可以先咨询在网络上提供此类服务的商家
相比人类编曲的劣势:
会存在一些小瑕疵(比如吐字,部分歌词和节奏的匹配问题)
音质不如人类编曲(v5模型有改善,但仍不如人类编曲)
讨论(是否满足需求?),(版权问题,AI生成的内容中依然会包含原曲的标志性特征 - 这样才能做到不是一首歌但是听起来一下就想到那首歌)
suno的用户协议 - 订阅用户可以将AI生成的内容用于商业用途
排除使用开源模型 - 目前无法进行精细控制,生成速度慢,对多语言的支持差。