AI克隆声音,只需3分钟快速部署生成式语音合成 GPT-Sovits

发布时间:2024-07-08 15:09:49 浏览量:213次

AI克隆声音,只需3分钟快速部署生成式语音合成 GPT-Sovits(亲测可行)

继生成式文本大模型 Chatgpt、生成式图片Stablediffusion之后,生成式语音Text To Speech领域有了一匹黑马GPT-Sovits。这个黑马在语音效果克隆领域做得十分突出,利用小样本声音数据即可实现高度相似的声音仿真,因此备受瞩目。GitHub上的star数迅速飙升,目前已达27.2K。

无论是C端的内容生产者,还是B端用户,想要使用GPT-Sovits进行内容生产都会面临一些技术挑战。下面将介绍如何通过阿里云函数计算快速托管GPT-Sovits来解决这些挑战。

应用场景

在GPT-Sovits的实践中,为了进一步探讨其价值,先聊聊生成式语音的应用场景:

  • 教育:声音在教育中至关重要,有感情色彩的交流远比纯文本交流更有意义,个人教育如英语培训也和语音密切相关。
  • 游戏娱乐:个性化声音是游戏吸引人的关键因素。
  • 新能源:在车载系统中,实时语音交互对于查询信息至关重要。
  • 新媒体:在数字人直播中,专业声音是直播效果的关键。
  • 农业:农业智能化需要语音交互方便性。
  • 机器人:机器人需要声音输出。

以上的场景与TTS息息相关,TTS作为核心基础能力被广泛应用。要构建完整效果还需更多工程化实现和其他基础模型。

动手部署一个AI克隆大模型

通过函数计算部署GPT-Sovits模型有两大好处:

1. 无需担心GPU服务器维护和环境配置,即可快速部署和体验模型。
2. 可充分利用函数计算按量付费、弹性伸缩等优势,为用户高效提供基于GPT-Sovits模型的文本到语音生成服务。

技术架构概览

本方案的技术架构包括函数计算、文件存储NAS和专有网络VPC。

重要:

1. 阿里云不对第三方模型的合法性、安全性、准确性承担责任。
2. 用户需自觉遵守第三方模型的用户协议、使用规范和相关法律法规,使用模型需符合相关责任。

部署GPT-Sovits模型

1. 登录函数计算3.0控制台。
2. 在左侧导航栏选择应用。
3. 在应用页面选择人工智能>语音克隆生成 GPT-SoVITS,点击立即创建。
4. 在创建应用页面,选择直接部署,确保所需权限已获取,服务状态已开通,其他配置保持默认,然后点击创建应用。
5. 在活动应用创建提醒对话框中,选中函数计算FC和文件存储NAS,同意并进行部署。
6. 等待约1分钟,部署状态变为部署成功,即可开始体验应用。

快速体验

部署完成后,使用DEMO声音样例,进行声音合成体验。尝试合成童年经典动画片台词:

  • 《小精灵》:穿梭在银河的火箭队,白色的明天在等着我们!
  • 《灌篮高手》:成为全国第一是我的梦想。
  • 《舒克和贝塔》:舒克开飞机的舒克。

合成操作步骤:

1. 选择默认语音模板,输入文本,点击合成语音。
2. 合成完成后,点击播放。

声音训练:

通过微调GPT-Sovits大模型,生成理想的声音。训练过程中的中间产物存储在NAS的output文件夹下。需使用默认的UVR5和ASR模型。

1. 数据预处理,上传原始声音文件进行处理。
2. 微调文本,调整原始文本内容。
3. 开始训练,开启SoVITS和GPT训练,模型存储在NAS下的对应文件夹。
4. 训练完成后,在语音克隆&推流页签刷新页面,选择训练模型,再体验合成语音。

若需了解更多,请使用钉钉进入“阿里函数计算官网客户2群”(群号:64970014484)。

相关链接:

[1] GPT-Sovits:https://github.com/RVC-Boss/GPT-SoVITS

[2] 函数计算3.0控制台:https://fcnext.console.aliyun.com/

[3] 官方README:https://github.com/RVC-Boss/GPT-SoVITS/blob/main/docs/cn/README.md

热门课程推荐

热门资讯

请绑定手机号

x

同学您好!

您已成功报名0元试学活动,老师会在第一时间与您取得联系,请保持电话畅通!
确定