AI学习 - 声音与视频人脸 进行唇形合成

发布时间:2024-06-26 19:15:58 浏览量:169次

接上一篇:AI学习 - 2D虚拟数字人

上一篇基于百度开源的飞桨深度学习框架,实现了2D数字人,即AI换脸。然而效果并不理想,面部表情和声音都略显别扭。想要真实的面部表情效果,可能需要尝试3D技术;而为了实现理想的声音效果,则需进行自定义训练模型。

网络上一些数字人作品,其声音和面部表情效果已经非常逼真,几乎难以区分真假。因此,在涉及私人信息和财务等方面时,需要更加警惕。

本篇对上一篇的声音做了一次实验,将搞笑的声音直接与视频进行唇形合成,效果如下:

唇形合成效果似乎略显别扭,可能与大模型的唇形合成有关,具体细节尚未探究。

在上篇学习的基础上,本篇内容更加简单,步骤分为:

步骤1: 环境搭建

依然使用AI Studio,每天可获得免费算力数小时,使用起来比较方便。环境检查中遇到一些问题,需要多次开启AI Studio才能正常使用pip。

AI Studio的一个缺点是,用户没有超级权限,因此无法自由重装某些组件。为了解决pip安装问题,可能需要多次开启环境查找合适的环境。

// 环境检测python -V// 检查python依赖环境,注意确认paddlepaddle-gpu,paddlehub是否已安装pip list// 遇到如下问题,后续pip安装报错,重新安装/升级pip无效,只能重新开启aistudioWARNING: There was an error checking the latest version of pip.

步骤2: 素材准备

准备一个音频和一个主持人口播视频。

也可访问这里运行我在AI Studio创建的项目以获取素材。

// 将下载的MP3音频转换为WAV格式,因为唇形合成需要WAV格式from pydub import AudioSegmentdef convert_mp3_to_wav(mp3_file_path, wav_file_path):    audio = AudioSegment.from_mp3(mp3_file_path)    audio.export(wav_file_path, format="wav")// 调用函数并指定MP3文件路径和WAV文件路径convert_mp3_to_wav("test.mp3", "example.wav")

步骤3: 唇形合成

源代码如下,请注意路径:

// 进行唇形合成 - 将准备好的语音与视频的唇部形状合成import paddlehub as hubw2f = hub.Module(name="wav2lip")w2f.wav2lip_transfer(face='output/FOM.mp4', audio='wavs/example.wav', output_dir='./output/', use_gpu=True)

想要了解更多关于数字艺术教育的信息,欢迎点击点击咨询

热门课程推荐

热门资讯

请绑定手机号

x

同学您好!

您已成功报名0元试学活动,老师会在第一时间与您取得联系,请保持电话畅通!
确定