环球快资讯：南洋才女,德艺双馨,孙燕姿本尊回应AI孙燕姿(基于Sadtalker/Python3.10)

孙燕姿果然不愧是孙燕姿，不愧为南洋理工大学的高材生，近日她在个人官方媒体博客上写了一篇英文版的长文，正式回应现在满城风雨的“AI孙燕姿”现象，流行天后展示了超人一等的智识水平，行文优美，绵恒隽永，对AIGC艺术表现得极其克制，又相当宽容，充满了语言上的古典之美，表现出了“任彼如泰山压顶，我只当清风拂面”的博大胸怀。

【资料图】

本次我们利用edge-tts和Sadtalker库让AI孙燕姿朗诵本尊的博文，让流行天后念给你听。

Sadtalker配置

之前我们曾经使用百度开源的PaddleGAN视觉效果模型中一个子模块Wav2lip实现了人物口型与输入的歌词语音同步，但Wav2lip的问题是虚拟人物的动态效果只能局限在嘴唇附近，事实上，音频和不同面部动作之间的连接是不同的，也就是说，虽然嘴唇运动与音频的联系最强，但可以通过不同的头部姿势和眨眼来反作用于音频。

和Wav2lip相比，SadTaker是一种通过隐式3D系数调制的风格化音频驱动Talking头部视频生成的库，一方面，它从音频中生成逼真的运动系数（例如，头部姿势、嘴唇运动和眨眼），并单独学习每个运动以减少不确定性。对于表达，通过从的仅嘴唇运动系数和重建的渲染三维人脸上的感知损失（唇读损失，面部landmark loss）中提取系数，设计了一种新的音频到表达系数网络。

对于程序化的头部姿势，通过学习给定姿势的残差，使用条件VAE来对多样性和逼真的头部运动进行建模。在生成逼真的3DMM系数后，通过一种新颖的3D感知人脸渲染来驱动源图像。并且通过源和驱动的无监督3D关键点生成扭曲场，并扭曲参考图像以生成最终视频。

Sadtalker可以单独配置，也可以作为Stable-Diffusion-Webui的插件而存在，这里推荐使用Stable-Diffusion插件的形式，因为这样Stable-Diffusion和Sadtalker可以共用一套WebUI的界面，更方便将Stable-Diffusion生成的图片做成动态效果。

进入到Stable-Diffusion的项目目录：

cd stable-diffusion-webui

启动服务：

python3.10 webui.py

程序返回：

Python 3.10.11 (tags/v3.10.11:7d4cc5a, Apr  5 2023, 00:38:17) [MSC v.1929 64 bit (AMD64)]  Version: v1.3.0  Commit hash: 20ae71faa8ef035c31aa3a410b707d792c8203a3  Installing requirements  Launching Web UI with arguments: --xformers --opt-sdp-attention --api --lowvram  Loading weights [b4d453442a] from D:\work\stable-diffusion-webui\models\Stable-diffusion\protogenV22Anime_protogenV22.safetensors  load Sadtalker Checkpoints from D:\work\stable-diffusion-webui\extensions\SadTalker\checkpoints  Creating model from config: D:\work\stable-diffusion-webui\configs\v1-inference.yaml  LatentDiffusion: Running in eps-prediction mode  DiffusionWrapper has 859.52 M params.  Running on local URL:  http://127.0.0.1:7860

代表启动成功，随后http://localhost:7860

选择插件(Extensions)选项卡

点击从url安装，输入插件地址：github.com/Winfredy/SadTalker

安装成功后，重启WebUI界面。

接着需要手动下载相关的模型文件：

https://pan.baidu.com/s/1nXuVNd0exUl37ISwWqbFGA?pwd=sadt

随后将模型文件放入项目的stable-diffusion-webui/extensions/SadTalker/checkpoints/目录即可。

接着配置一下模型目录的环境变量：

set SADTALKER_CHECKPOINTS=D:/stable-diffusion-webui/extensions/SadTalker/checkpoints/

至此，SadTalker就配置好了。

edge-tts音频转录

之前的歌曲复刻是通过So-vits库对原歌曲的音色进行替换和预测，也就是说需要原版的歌曲作为基础数据。但目前的场景显然有别于歌曲替换，我们首先需要将文本转换为语音，才能替换音色。

这里使用edge-tts库进行文本转语音操作：

import asyncio    import edge_tts    TEXT = """    As my AI voice takes on a life of its own while I despair over my overhanging stomach and my children"s every damn thing, I can"t help but want to write something about it.    My fans have officially switched sides and accepted that I am indeed 冷门歌手 while my AI persona is the current hot property. I mean really, how do you fight with someone who is putting out new albums in the time span of minutes.    Whether it is ChatGPT or AI or whatever name you want to call it, this "thing" is now capable of mimicking and/or conjuring,  unique and complicated content by processing a gazillion chunks of information while piecing and putting together in a most coherent manner the task being asked at hand. Wait a minute, isn"t that what humans do? The very task that we have always convinced ourselves; that the formation of thought or opinion is not replicable by robots, the very idea that this is beyond their league, is now the looming thing that will threaten thousands of human conjured jobs. Legal, medical, accountancy, and currently, singing a song.     You will protest, well I can tell the difference, there is no emotion or variance in tone/breath or whatever technical jargon you can come up with. Sorry to say, I suspect that this would be a very short term response.    Ironically, in no time at all, no human will be able to rise above that. No human will be able to have access to this amount of information AND make the right calls OR make the right mistakes (ok mayyyybe I"m jumping ahead). This new technology will be able to churn out what exactly EVERYTHING EVERYONE  needs. As indie or as warped or as psychotic as you can get, there"s probably a unique content that could be created just for you. You are not special you are already predictable and also unfortunately malleable.    At this point, I feel like a popcorn eater with the best seat in the theatre. (Sidenote: Quite possibly in this case no tech is able to predict what it"s like to be me, except when this is published then ok it"s free for all). It"s like watching that movie that changed alot of our lives Everything Everywhere All At Once, except in this case, I don"t think it will be the idea of love that will save the day.     In this boundless sea of existence, where anything is possible, where nothing matters, I think it will be purity of thought, that being exactly who you are will be enough.     With this I fare thee well.    """    VOICE = "en-HK-YanNeural"  OUTPUT_FILE = "./test_en1.mp3"      async def _main() -> None:      communicate = edge_tts.Communicate(TEXT, VOICE)      await communicate.save(OUTPUT_FILE)      if __name__ == "__main__":      asyncio.run(_main())

音频使用英文版本的女声：en-HK-YanNeural，关于edge-tts，请移步：口播神器,基于Edge,微软TTS(text-to-speech)文字转语音免费开源库edge-tts语音合成实践(Python3.10)，这里不再赘述。

随后再将音频文件的音色替换为AI孙燕姿的音色即可：AI天后,在线飙歌,人工智能AI孙燕姿模型应用实践，复刻《遥远的歌》，原唱晴子(Python3.10)。

本地推理和爆显存问题

准备好生成的图片以及音频文件后，就可以在本地进行推理操作了，访问 localhost:7860

这里输入参数选择full，如此会保留整个图片区域，否则只保留头部部分。

生成效果：

SadTalker会根据音频文件生成对应的口型和表情。

这里需要注意的是，音频文件只支持MP3或者wav。

除此以外，推理过程中Pytorch库可能会报这个错误：

torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 20.00 MiB (GPU 0; 6.00 GiB total capacity; 5.38 GiB already allocated; 0 bytes free; 5.38 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

这就是所谓的"爆显存问题"。

一般情况下，是因为当前GPU的显存不够了所导致的，可以考虑缩小torch分片文件的体积：

set PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:60

如果音频文件实在过大，也可以通过ffmpeg对音频文件切片操作，分多次进行推理：

ffmpeg -ss 00:00:00 -i test_en.wav -to 00:30:00 -c copy test_en_01.wav

藉此，就解决了推理过程中的爆显存问题。

结语

和Wav2Lip相比，SadTalker(Stylized Audio-Driven Talking-head)提供了更加细微的面部运动细节（如眼睛眨动）等等，可谓是细致入微，巨细靡遗，当然随之而来的是模型数量和推理成本以及推理时间的增加，但显然，这些都是值得的。

推荐内容

环球快资讯：南洋才女,德艺双馨,孙燕姿本尊回应AI孙燕姿(基于Sadtalker/Python3.10)

视点！边框条配置及使用

项目管理中，如何养成结构化表达习惯？-每日快播

Ping32统一终端安全管理助力企业网络安全

让“充电焦虑”逐步变为“充电自由”-每日精选

集邦咨询：第一季全球智能手机产量创近十年来新低

世界信息:海关总署：前5个月我国机电产品、劳密产品出口均增长

联发股份：巨联科技公司主营业务以信息技术服务及软件开发为主_焦点

ST花王（603007）6月7日11点4分触及涨停板 环球热讯

“续航”和“亮相”！2023年北京高考大作文仍为“二选一”

世界今日讯！2023年北京高考大作文仍为“二选一” ：“续航”和“亮相”

仙佑集团：行业洗牌膏药市场竞争格局与风险预警

焦点资讯：用艺术丰富人生，彭州实小艺美少年“艺”起向未来

为成长护航，彩虹小学呼吁共建无烟环境

零距离、沉浸式，锦官城小学家长开放日“深入”“透彻” 环球时快讯

全球速递！提升听评课能力，青羊特校新教师探讨期末那些事儿

乐享缤纷童年，唐昌镇幼儿园载歌载舞欢庆六一！

为什么莫拉塔叫草皮人？福斯贝里厉害吗？

埃里克森事件是怎么回事？埃里克森怎么回事？

谢尔丹•沙奇里水平怎么样？莱昂纳多•博努奇现在在哪支球队踢球？

快看：脾虚肝火旺吃什么中成药(肝火旺脾胃虚寒吃什么药)

csgo开箱钥匙在哪里买？csgo开箱钥匙购买攻略介绍

药流吃什么药_第一次怀孕药流成功率高吗

为什么经常打呼噜_为什么会打呼噜

广东惠州各级工会投26万元服务新业态劳动者6000人次_每日消息

10名中国选手赌球被禁赛，中国台球协会回应_全球最资讯

每日热文：欧股小幅收高 欧元区消费者对通胀更为乐观

沙特将斥资数十亿美元完成美巡赛和LIV高尔夫的合并-全球微动态

当前播报:【环球财经】一季度澳大利亚国内生产总值同比增长2.3%

中消协发布消费警示：警惕培训班退费骗局

市场监管总局：5月11家车企共召回汽车超118万辆 环球新动态

为什么帕瓦尔转会拜仁？帕瓦尔转会费是多少？

瓷砖贴完隔几个月美缝有没有问题

护墙板和集成墙板哪个贵 环球微资讯

莫拉塔现在在哪个足球队？罗伊斯厉害吗？

扎卡水平高吗？阿斯皮利奎塔踢什么位置？

“姐妹妈妈”准备三套旗袍 为双胞胎儿子送考

今年湖北高考作文题考生表示，“很好写”！ 全球今头条

环球播报:高考题正好复习过！女生走出考场直呼非常好

湖北多地骑警上演“疾速快递”，为高考生排忧解难_今日热搜

世界观速讯丨@武汉考生：高考期间这些交通工具可免费

久巴踢球水平怎样？皇马是哪里的俱乐部？

2023长江主题旅游海外推广季 | 走进江西 感受文旅资源独特魅力-全球信息

图片新闻_世界时快讯

全球滚动:市生态环境局开展六五宣传进校园活动

全球微速讯：市领导调研端午节文旅活动筹备工作

小米磁吸充电宝绿灯闪烁

当前观察：k50跟小米11pro哪个配置好点

新能源汽车电池回收网点

快看：红米k40游戏增强版有线耳机

电脑开机显示程序无法正常启动_天天快资讯

极摩客发布 K4 迷你主机：搭载 R9 7940HS 处理器

世界聚焦：手机自动关机后打不开了怎么办

沪银主力行情震荡偏强

周三（6月7日）COMEX白银最新库存量数据_今亮点

巴萨解释为什么不续约梅西？梅尔滕斯是哪个国家的人？

00后的王楚钦为何经常传出恋情传闻？陈梦委屈，刘国梁不该犯错 环球速讯

全球看热讯：电热水壶烧的水，损伤神经还致癌？夏天这3种水，真的要少喝！

东莞排名第一的整形医院 实力果然与众不同

激光脱毛痛不痛

乌苏“石榴籽”深情出镜：马头琴，声声催我回故乡！

环球头条：又搞抬价！29队NBA老板在哭泣

掘金全队聚餐，2大奇兵入镜！巴特勒却去花天酒地，热火G3危险了

湖人3消息！老詹下家更新，不愿提前续约浓眉，拉塞尔仍可能留队

世界热讯:3年1.6亿遭拒！浓眉或将离队？詹姆斯是重要原因，名嘴批评湖人

世行：2023年全球增长料放缓至2.1% 高利率加剧金融风险

全球看热讯：海关总署：前5月我国出口机电产品5.57万亿元 同比增长9.5%

全球视讯！彻底实现本土化 红杉全球宣布三大区域将各自完全独立

海关总署：今年前5个月我国民营企业进出口比重超五成

环球通讯！海关总署：前5个月我国出口机电产品5.57万亿元 增长9.5%

当前简讯:高考试卷是在监狱印刷的？揭秘！

@高考考生 多地考点启用智能安检门 这些设备物品不要带|环球滚动

性能升级价却更低 揭秘京东机械革命游戏本火爆背后的“低价密码”

富士胶片与玛格南图片社2023年合作摄影展北京站即将开幕_独家焦点

哈里-凯恩踢球水平怎样？为什么曼联主场叫老特拉福德？

科拉罗夫水平怎样？为什么格列兹曼离开巴萨？

看点：中证转债指数午盘跌0.13%，近三成可转债上涨(06-07)

23信阳国信SCP001票面利率为5.0000%

午评：创业板指跌1.32% CPO、算力概念大涨 每日速递

ST花王（603007）6月7日11点4分触及涨停板环球热讯

每日热文：欧股小幅收高欧元区消费者对通胀更为乐观

市场监管总局：5月11家车企共召回汽车超118万辆环球新动态

护墙板和集成墙板哪个贵环球微资讯

“姐妹妈妈”准备三套旗袍为双胞胎儿子送考

今年湖北高考作文题考生表示，“很好写”！全球今头条

2023长江主题旅游海外推广季 | 走进江西感受文旅资源独特魅力-全球信息

00后的王楚钦为何经常传出恋情传闻？陈梦委屈，刘国梁不该犯错环球速讯

东莞排名第一的整形医院实力果然与众不同

全球看热讯：海关总署：前5月我国出口机电产品5.57万亿元同比增长9.5%

全球视讯！彻底实现本土化红杉全球宣布三大区域将各自完全独立

环球通讯！海关总署：前5个月我国出口机电产品5.57万亿元增长9.5%

@高考考生多地考点启用智能安检门这些设备物品不要带|环球滚动

性能升级价却更低揭秘京东机械革命游戏本火爆背后的“低价密码”

午评：创业板指跌1.32% CPO、算力概念大涨每日速递

世行上调中国今年经济增速预期至5.6%，警示美联储加息外溢风险视点

支付宝免费提现额度？支付宝免费提现额度是每月还是每年？环球快资讯快报

世界观察：飞凡巴赫座舱来了：全球首创主动式座椅可自动充气放气

华宝新能：6月6日融券净卖出300股，连续3日累计净卖出1500股世界讯息