AI 孙燕姿

wafer · 发表于 2023-5-9 09:48:31

参考资料：
https://github.com/svc-develop-team/so-vits-svc
https://www.bilibili.com/video/B ... 6d832e90ad1c9ae70f6

wafer · 发表于 2023-5-9 09:49:18

SoVitsSvc：唱歌声音转换

图片

项目地址：https://github.com/svc-develop-team/so-vits-svc
歌声转换模型使用SoftVC内容编码器来提取源音频语音特征，然后将向量直接送入VITS，而不是转换为基于文本的中间格式。因此，音高和音调都可以被保留下来。
此外，项目开发者还通过采用NSF HiFiGAN作为声码器（vocoder），从而解决了声音中断的问题。
图片
· 特征输入改为Content Vec · 采样率统一使用44100Hz
· 由于参数的改变，以及模型结构的精简，推理所需的GPU显存明显减少。
· 增加选项1：vc模式的自动音高预测，这意味着在转换语音时不需要手动输入音高键，男声和女声的音高可以自动转换。但是，这种模式在转换歌曲时，会造成音高偏移。
· 增加选项2：通过k-means聚类方案减少音色泄漏，使音色与目标音色更相似。
· 增加选项3：增加NSF-HIFIGAN增强器，对一些训练集少的模型有一定的音质增强效果，但对训练好的模型有负面影响，所以默认关闭。
预训练模型文件
将checkpoint_best_legacy_500.pt放在hubert目录下。
将G_0.pth和D_0.pth放在logs/44k目录下。
预处理
0. 音频切片
利用audio-slicer-GUI或audio-slicer-CLI工具，将原始音频切片至5秒-15秒。
长一点也没问题，但太长（比如30秒）可能会在训练甚至预处理时导致「torch.cuda.OutOfMemoryError」，俗称爆显存。
切片后，删除过长和过短的音频。
1. 重采样至44100Hz和单声道
python resample.py
2. 自动将数据集分成训练集和验证集，并生成配置文件
python preprocess_flist_config.py
3. 生成hubert和f0
python preprocess_hubert_f0.py
完成上述步骤后，dataset目录将包含预处理的数据，dataset_raw文件夹可以被删除。
现在，你可以修改生成的config.json中的一些参数——
keep_ckpts：在训练中保留最后的keep_ckpts模型。设置为0将保留所有模型，默认是3。
all_in_mem：将所有数据集加载到RAM中。当某些平台的磁盘IO太低，而系统内存比你的数据集大得多时，可以启用。
训练
python train.py -c configs/config.json -m 44k
推理
模型在需要使用「inference_main.py」。
举个例子：
python inference_main.py -m "logs/44k/G_30400.pth" -c "configs/config.json" -s "nen" -n "君の知らない物語-src.wav" -t 0
虽然原始项目组现已停止维护，但有不少网友都进行了fork并且也做了一些更新。

		自动登录	找回密码
密码			注册