大模型代码搭建阶段,考虑后续还想加入语音识别(ASR)与文本转语音(TTS)功能。也考虑延伸设计一款数字人系统,于是花了两天时间进行调研,并对比较火的一款开源框架进行测试。通过对开源框架的测试,了解数字人架构逻辑。
这篇Github将数字人所需主要技术进行了整理:
https://github.com/YUANZHUO-BNU/metahuman_overview
Fay代码地址:
https://github.com/xszyou/Fay
b站上也有一些博客介绍:
https://www.bilibili.com/read/cv36080696/?jump_opus=1
https://blog.csdn.net/ruoxuer/article/details/139248436
Fay
Fay简单来说,是将市面上一些大模型调用、ASR、TTS、情感分析整合在一起,通过源码中的system.conf文件也可以看出来,需要对相关api_key进行配置。
为了快速实现,这里注册调用了阿里云语音识别、豆包语音合成、百度情绪分析(调用限制)、通义星尘大模型等。
程序启动直接按照Github部署即可。
页面设置后,可以直接语音输入输出对话。
虚拟人
fay只是数字人应用框架,要使用虚拟人实时驱动还需要使用其他建模项目调用,这里也简单测试了一种。
https://github.com/waityousea/xuniren
博客
https://blog.csdn.net/ruoxuer/article/details/139240317?csdn_share_tail=%7B%22type%22%3A%22blog%22%2C%22rType%22%3A%22article%22%2C%22rId%22%3A%22139240317%22%2C%22source%22%3A%22ruoxuer%22%7D
参考文档直接install会因为环境问题报错,需要先设置环境变量
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 |
cd /d D:\git_code\xuniren\raymarching conda activate pytorch3d set DISTUTILS_USE_SDK=1 echo %CUDA_HOME% set KMP_DUPLICATE_LIB_OK=TRUE set CUDA_HOME=C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.2 set PATH=C:\Program Files (x86)\Microsoft Visual Studio\2019\Community\VC\Tools\MSVC\14.29.30133\bin\Hostx64\x64;%PATH% set INCLUDE=C:\Program Files (x86)\Microsoft Visual Studio\2019\Community\VC\Tools\MSVC\14.29.30133\include;%INCLUDE% set LIB=C:\Program Files (x86)\Microsoft Visual Studio\2019\Community\VC\Tools\MSVC\14.29.30133\lib\x64;%LIB% python setup.py install cd .. cd freqencoder set DISTUTILS_USE_SDK=1 python setup.py install cd .. cd shencoder set DISTUTILS_USE_SDK=1 python setup.py install cd .. cd gridencoder set DISTUTILS_USE_SDK=1 python setup.py install python fay_connect.py |