数字人Fay调研

大模型代码搭建阶段,考虑后续还想加入语音识别(ASR)与文本转语音(TTS)功能。也考虑延伸设计一款数字人系统,于是花了两天时间进行调研,并对比较火的一款开源框架进行测试。通过对开源框架的测试,了解数字人架构逻辑。

这篇Github将数字人所需主要技术进行了整理:

https://github.com/YUANZHUO-BNU/metahuman_overview

Fay代码地址:

https://github.com/xszyou/Fay

b站上也有一些博客介绍:

https://www.bilibili.com/read/cv36080696/?jump_opus=1

https://blog.csdn.net/ruoxuer/article/details/139248436

Fay

Fay简单来说,是将市面上一些大模型调用、ASR、TTS、情感分析整合在一起,通过源码中的system.conf文件也可以看出来,需要对相关api_key进行配置。

为了快速实现,这里注册调用了阿里云语音识别、豆包语音合成、百度情绪分析(调用限制)、通义星尘大模型等。

程序启动直接按照Github部署即可。

img

页面设置后,可以直接语音输入输出对话。

虚拟人

fay只是数字人应用框架,要使用虚拟人实时驱动还需要使用其他建模项目调用,这里也简单测试了一种。

https://github.com/waityousea/xuniren

博客

https://blog.csdn.net/ruoxuer/article/details/139240317?csdn_share_tail=%7B%22type%22%3A%22blog%22%2C%22rType%22%3A%22article%22%2C%22rId%22%3A%22139240317%22%2C%22source%22%3A%22ruoxuer%22%7D

参考文档直接install会因为环境问题报错,需要先设置环境变量

img

发表评论

邮箱地址不会被公开。 必填项已用*标注