SO-VITS-SVC模型是一种基于ai智能技术的音频转音频开源项目,使用音色转换算法,能够在大规模数据集上进行高效检索,收集音色,形成专业的音色模型,生成非常逼真的声音以此来模拟想要模拟的声音,并且可以与其他人共享训练结果和模型参数。
so-vits-svc是最近很火的一款ai音频转音频开源项目,属于音色转换算法,支持正常的说话,也支持歌声的音色转换。
1.使用了一种称为“生成对抗网络”的技术,可以生成非常逼真的声音
2.可以通过输入少量的音频数据,生成具有相似音色和唱腔的新歌曲。
3.翻唱作品在技术上非常先进,并且得到了广泛的关注和赞誉,但是它也存在着一些法律问题。
1、进入到官网界面,找到登录的入口,点击Sign in
2、跳转到登录界面,输入账号、密码,然后单击Sign in按钮登录
3、进入到自己的管理项目界面,在左上方有个搜索框,可以输入关键字查找项目
4、在搜索框输入vue关键字,查找到vuex并点击进入
5、进入到别人某个项目的详细界面,点击右下方绿色按钮(Clone or Download)
6、展开菜单,可以选择使用Git检出项目,也可以使用SSH检出,还可以使用下载ZIP方式
7、选择Git检出方式,复制项目的git路径,打开Git命令窗口,使用git clone 项目路径,下载项目
8.手机版GitHub进入之后,点击desktop,进入代码,有个download按钮,点击就可以下载了。
报错:UnicodeDecodeError: utf-8 codec cant decode byte 0xd0 in position xx
答:数据集文件名中不要包含中文或日文等非西文字符。
报错:页面文件太小,无法完成操作。
答:调整一下虚拟内存大小,具体的方法各种地方一搜就能搜到,不展开了。
报错:UnboundLocalError: local variable audio referenced before assignment
答:上传的推理音频需要是16位整数wav格式,用Au转换一下就好。或者装个ffmpeg一劳永逸地解决问题。
报错:AssertionError: CPU training is not allowed.
答:非N卡跑不了的。
报错:torch.cuda.OutOfMemoryError: CUDA out of memory
答:爆显存了,试着把batch_size改小,改到1还爆的话建议云端训练。
报错:RuntimeError: DataLoader worker (pid(s) xxxx) exited unexpectedly
答:把虚拟内存再调大一点。
报错:NotImplementedError: Only 2D, 3D, 4D, 5D padding with non-constant padding are supported for now
答:数据集切片切太长了,5-10秒差不多。
报错:CUDA error: CUBLAS_STATUS_NOT_INITIALIZED when calling cublasCreate(handle)
答:爆显存了,基本上跟CUDA有关的报错大都是爆显存……
报错:torch.multiprocessing.spawn.ProcessExitedException: process 0 terminated with exit code 3221225477
答:调大虚拟内存,管理员运行脚本
报错:HParams object has no attribute xxx
答:无法找到音色,一般是配置文件和模型没对应,打开配置文件拉到最下面看看有没有你训练的音色
报错:The expand size of the tensor (768) must match the existing size (256) at non-singleton dimension 0.
答:把dataset/44k下的内容全部删了,重新走一遍预处理流程
报错:Given groups=1, weight of size [xxx, 256, xxx], expected input[xxx, 768, xxx] to have 256 channels, but got 768 channels instead
答:v1分支的模型用了vec768的配置文件,如果上面报错的256的768位置反过来了那就是vec768的模型用了v1的配置文件
Q: 跑这个的最低配置要求是啥啊?
A: 支持CUDA的6G显存以上的N卡,硬盘也留足一点空间。
Q: A卡真的跑不了吗哭哭
A: 理论上可以在Ubuntu或Linux环境下通过ROCm来实现,但是比较麻烦,小白建议放弃直接去云端。
Q: 我的显卡达不到最低要求,云端又心疼钱,真的没法训练了吗?
A: 建议去看DDSP-SVC项目(BV1qM411W7ft),效果差一点但也能听,最重要的是对低配非常友好。
Q: 用UVR5分离人声的时候声音会失真,还有什么更给力的工具吗?
A: 理论上UVR5已经是目前最强的人声分离工具了,原曲如果伴奏声音太大轨道太复杂是一定会有失真的,建议选原曲的时候选择伴奏简单人声清楚的效果会好很多。
Q: Audio Slicer 切出来的音频有的长达几十秒甚至几分钟,是怎么回事?
A: 切片长度建议5-15秒,训练时过长部分会被自动丢弃。切出来过长的音频可以调整一下slicer里的maximum silence length这一条,改成500或者更低。还有过长的音频就自己用Au之类的手动切一下啦。
Q: 我怎么判断模型有没有训练好?
A: 数据集数量正常的情况下(几百条),可以每隔几千步(是总步数不是epoch)跑出来的模型推理听一下,你觉得ok就ok,一般一万步就可以有一个不错的效果了。或者有代码基础的可以用tensorboard查看一下损失率收敛趋势。
Q: 那么问题来了,tensorboard怎么用?
A: python38\Scripts\tensorboard.exe --logdir logs\44k
Q: 我在训练途中按 CTRL+C 暂停训练,继续训练的时候为什么从头开始/步数掉了很多呢?
A: 视频里说的有点歧义,其实是从你上一个保存的模型的进度开始的,比如保存的一个模型是G_8000, 即使你训练到了第8799步,只要下一个模型还没保存,继续训练的时候都是从第8000步开始的。同理,如果一个模型也没保存,那就是从头开始训练。
Q: 如果我在训练中途想要追加一些数据集该怎么办呢?
A: 需要重新预处理并重新训练。
Q: 我为什么没有聚类模型啊?
A: 罚你重看一遍视频。
Q: 训练聚类模型的时候显卡根本没占用是怎么会是呢?
A: 聚类模型训练吃的是你的CPU,看一下python进程在占用CPU就是在训练,等就行了。
Q: 我实在是太懒了,只想让AI帮我读稿子,不想自己录原声再推理,有啥办法吗?
A: 出门右转隔壁 VITS 项目,最近有个 VITS fast fine-tuning 的方法(BV1Jg4y1E7df),几分钟的素材就能练出比较相似的声音,虽然效果没那么好但它实在是太方便了。
Q: 云端训练好的模型怎么在本地用?
A: 下载G模型和对应的config文件,放到本地的对应文件夹就行(.\logs\44k和.\configs)
Q: 我实在不会搞了,请问UP能代训练吗?有偿的那种。
A: 不能。
Q: 我训练和推理都很顺利!现在已经做了一首翻唱了,想上传到B站,有什么注意事项吗?
A: 请勿在视频简介标注项目仓库和整合包作者信息。请标注视频中所使用的输入源和训练集音声来源。
为大家带来SO-VITS-SVC模型 云端训练下载,GitHub上的一个最近比较火的开源项目,融入了ai智能技术,让大家通过最近大火的ai智能算法和音色转换算法生成想要的音色!
暂无
简体中文
全年龄对象
(GitHub)免费版v1.112.0
0KB
免费
否
查看权限
暂无评论,期待你的妙语连珠
预约成功!,
到时你将收到我们的短信提醒。
渝ICP备20008086号-17 渝公网安备50010702505138号
ejdz2023#163.com(#替换为@) QQ:2368208271
SO-VITS-SVC模型云端训练
应用截图
应用简介
SO-VITS-SVC模型是一种基于ai智能技术的音频转音频开源项目,使用音色转换算法,能够在大规模数据集上进行高效检索,收集音色,形成专业的音色模型,生成非常逼真的声音以此来模拟想要模拟的声音,并且可以与其他人共享训练结果和模型参数。
so-vits-svc介绍
so-vits-svc是最近很火的一款ai音频转音频开源项目,属于音色转换算法,支持正常的说话,也支持歌声的音色转换。
so-vits-svc特色
1.使用了一种称为“生成对抗网络”的技术,可以生成非常逼真的声音
2.可以通过输入少量的音频数据,生成具有相似音色和唱腔的新歌曲。
3.翻唱作品在技术上非常先进,并且得到了广泛的关注和赞誉,但是它也存在着一些法律问题。
GitHub如何下载别人的项目
1、进入到官网界面,找到登录的入口,点击Sign in
2、跳转到登录界面,输入账号、密码,然后单击Sign in按钮登录
3、进入到自己的管理项目界面,在左上方有个搜索框,可以输入关键字查找项目
4、在搜索框输入vue关键字,查找到vuex并点击进入
5、进入到别人某个项目的详细界面,点击右下方绿色按钮(Clone or Download)
6、展开菜单,可以选择使用Git检出项目,也可以使用SSH检出,还可以使用下载ZIP方式
7、选择Git检出方式,复制项目的git路径,打开Git命令窗口,使用git clone 项目路径,下载项目
8.手机版GitHub进入之后,点击desktop,进入代码,有个download按钮,点击就可以下载了。
SO-VITS-SVC常见报错解决办法
报错:UnicodeDecodeError: utf-8 codec cant decode byte 0xd0 in position xx
答:数据集文件名中不要包含中文或日文等非西文字符。
报错:页面文件太小,无法完成操作。
答:调整一下虚拟内存大小,具体的方法各种地方一搜就能搜到,不展开了。
报错:UnboundLocalError: local variable audio referenced before assignment
答:上传的推理音频需要是16位整数wav格式,用Au转换一下就好。或者装个ffmpeg一劳永逸地解决问题。
报错:AssertionError: CPU training is not allowed.
答:非N卡跑不了的。
报错:torch.cuda.OutOfMemoryError: CUDA out of memory
答:爆显存了,试着把batch_size改小,改到1还爆的话建议云端训练。
报错:RuntimeError: DataLoader worker (pid(s) xxxx) exited unexpectedly
答:把虚拟内存再调大一点。
报错:NotImplementedError: Only 2D, 3D, 4D, 5D padding with non-constant padding are supported for now
答:数据集切片切太长了,5-10秒差不多。
报错:CUDA error: CUBLAS_STATUS_NOT_INITIALIZED when calling cublasCreate(handle)
答:爆显存了,基本上跟CUDA有关的报错大都是爆显存……
报错:torch.multiprocessing.spawn.ProcessExitedException: process 0 terminated with exit code 3221225477
答:调大虚拟内存,管理员运行脚本
报错:HParams object has no attribute xxx
答:无法找到音色,一般是配置文件和模型没对应,打开配置文件拉到最下面看看有没有你训练的音色
报错:The expand size of the tensor (768) must match the existing size (256) at non-singleton dimension 0.
答:把dataset/44k下的内容全部删了,重新走一遍预处理流程
报错:Given groups=1, weight of size [xxx, 256, xxx], expected input[xxx, 768, xxx] to have 256 channels, but got 768 channels instead
答:v1分支的模型用了vec768的配置文件,如果上面报错的256的768位置反过来了那就是vec768的模型用了v1的配置文件
SO-VITS-SVC常见问题
Q: 跑这个的最低配置要求是啥啊?
A: 支持CUDA的6G显存以上的N卡,硬盘也留足一点空间。
Q: A卡真的跑不了吗哭哭
A: 理论上可以在Ubuntu或Linux环境下通过ROCm来实现,但是比较麻烦,小白建议放弃直接去云端。
Q: 我的显卡达不到最低要求,云端又心疼钱,真的没法训练了吗?
A: 建议去看DDSP-SVC项目(BV1qM411W7ft),效果差一点但也能听,最重要的是对低配非常友好。
Q: 用UVR5分离人声的时候声音会失真,还有什么更给力的工具吗?
A: 理论上UVR5已经是目前最强的人声分离工具了,原曲如果伴奏声音太大轨道太复杂是一定会有失真的,建议选原曲的时候选择伴奏简单人声清楚的效果会好很多。
Q: Audio Slicer 切出来的音频有的长达几十秒甚至几分钟,是怎么回事?
A: 切片长度建议5-15秒,训练时过长部分会被自动丢弃。切出来过长的音频可以调整一下slicer里的maximum silence length这一条,改成500或者更低。还有过长的音频就自己用Au之类的手动切一下啦。
Q: 我怎么判断模型有没有训练好?
A: 数据集数量正常的情况下(几百条),可以每隔几千步(是总步数不是epoch)跑出来的模型推理听一下,你觉得ok就ok,一般一万步就可以有一个不错的效果了。或者有代码基础的可以用tensorboard查看一下损失率收敛趋势。
Q: 那么问题来了,tensorboard怎么用?
A: python38\Scripts\tensorboard.exe --logdir logs\44k
Q: 我在训练途中按 CTRL+C 暂停训练,继续训练的时候为什么从头开始/步数掉了很多呢?
A: 视频里说的有点歧义,其实是从你上一个保存的模型的进度开始的,比如保存的一个模型是G_8000, 即使你训练到了第8799步,只要下一个模型还没保存,继续训练的时候都是从第8000步开始的。同理,如果一个模型也没保存,那就是从头开始训练。
Q: 如果我在训练中途想要追加一些数据集该怎么办呢?
A: 需要重新预处理并重新训练。
Q: 我为什么没有聚类模型啊?
A: 罚你重看一遍视频。
Q: 训练聚类模型的时候显卡根本没占用是怎么会是呢?
A: 聚类模型训练吃的是你的CPU,看一下python进程在占用CPU就是在训练,等就行了。
Q: 我实在是太懒了,只想让AI帮我读稿子,不想自己录原声再推理,有啥办法吗?
A: 出门右转隔壁 VITS 项目,最近有个 VITS fast fine-tuning 的方法(BV1Jg4y1E7df),几分钟的素材就能练出比较相似的声音,虽然效果没那么好但它实在是太方便了。
Q: 云端训练好的模型怎么在本地用?
A: 下载G模型和对应的config文件,放到本地的对应文件夹就行(.\logs\44k和.\configs)
Q: 我实在不会搞了,请问UP能代训练吗?有偿的那种。
A: 不能。
Q: 我训练和推理都很顺利!现在已经做了一首翻唱了,想上传到B站,有什么注意事项吗?
A: 请勿在视频简介标注项目仓库和整合包作者信息。请标注视频中所使用的输入源和训练集音声来源。
小编点评
为大家带来SO-VITS-SVC模型 云端训练下载,GitHub上的一个最近比较火的开源项目,融入了ai智能技术,让大家通过最近大火的ai智能算法和音色转换算法生成想要的音色!
详细信息
暂无
简体中文
全年龄对象
(GitHub)免费版v1.112.0
0KB
免费
否
查看权限
评论(0)
暂无评论,期待你的妙语连珠
预约成功!,
到时你将收到我们的短信提醒。
相似软件
最新收录