无论用项目自带的模型还是有声音克隆功能的自己去训练,短时间内都出不了太好效果,哑音、发音不标准等情况是普遍存在,应该是需要微调的。
我主要试了以下几个开源仓库:
1、vits:https://github.com/jaywalnut310/vits
我自己的测试效果(没做微调,哑音是肯定的),二次元感觉明显,中文带日文口音,英文很多发音都不太好。看了其他人的效果,感觉就是适合二次元的。
2、bark:https://github.com/suno-ai/bark
emmmm,声音克隆功能下线了,使用已有的模型测试了一下,情绪或者语气词之类的确实比vits处理的好,听说更新是支持长音频了,但是我没测试出来,可以自己试试。
3、https://github.com/CjangCjengh/vits
需要做声音克隆的可以考虑以下几个开源仓库:
①so-vits
做二次元的效果相对会好一点,但是不带tts功能,只能音频转音频。
②DDSP-SVC
③MockingBird
感觉效果还不如vits。
结论:等待浙大项目开源