Speaker change point detection-Maxout DNN-d-vector

# Maxout-DNN(生成d-vector 用于Speaker change point detection/Tensorflow) ## 1.概述 此模型基于论文:SPEAKER SEGMENTATION USING DEEP SPEAKER VECTORS FOR FAST SPEAKER CHANGE SCENARIOS中使用的生成能代表音频文件d-vector特征的Maxout-DNN模型结构实现,我们提供了训练代码以及训练好的可直接用于部署的modelarts模型(在trained_model文件夹内)。用户可自己训练后将生成的.ckpt文件替换trained_model文件夹内的.ckpt文件用于部署。 | 项目 | 说明 | | :------------: | :------------: | | 参考论文 |SPEAKER SEGMENTATION USING DEEP SPEAKER VECTORS FOR FAST SPEAKER CHANGE SCENARIOS| | ·使用框架·| tensorflow-1.13.1 | |···训练集··· | Voxceleb1中随机选取的100个speaker | |··epoch数··| 500 | |batch_size| 512 | |Table1测试集| Voxceleb1 test dataset | |Table2测试集| AMI test dataset | |音频文件Fbank维数| 40 | ## 2.训练 ### 2.1算法基本信息 - 任务类型:Speaker change point detection - 支持的框架引擎:Tensorflow1.13.1-python3.6 - 算法输入: - 首先按照preprocess.py文件进行预处理提取音频文件的logfbank特征并保存为feature.npy文件,其对应的speaker作为label转换为独热编码保存为label.npy文件。 - 将上述生成的npy文件保存在OBS中作为train.py文件的输入。 - 算法输出: - 用于Tensorflow推导生成d-vector的.ckpt文件。 - 代码结构: src |-trained_model(可直接用于部署预测的模型) |-checkpoint |-model.ckpt |-config.json |-customizer_service.py |-preprocess.py |-trian.py |-preprocess.py |-evaluation.py |-changepoint_detect.py |-在线服务实例数据 |-批量服务实例数据 ###2.2训练参数说明 parser.add_argument("--input_shape", default=40, type=int,help="DNN input dimensions") # Maxout-DNN输入维度,音频文件预处理logfbank特征维数(即滤波器个数) parser.add_argument("--units", default=200, type=int, help="hidden layer units") # 隐藏层神经元个数 parser.add_argument("--label_nums", default=100, type=int, help="classification labels") # 多分类任务label个数 parser.add_argument("--batch_size", default=512, type=int, help="batch_size") # batch_size一批次输入个数 parser.add_argument("--epoch", default=2, type=int, help="epochs") # epoch训练轮次,可更改建议改为500 parser.add_argument("--print_step", default=20000, type=int, help="print every print_step") # 每20000个batch在验证集上验证效果 parser.add_argument("--prob", default=0.5, type=float, help="dropout rate") # dropout随机失活的概率 parser.add_argument("--lr", default=1e-4, type=float, help="learning rate") # Adam优化算法初始学习率 parser.add_argument("--decay_rate", default=0.1, type=float, help="lr decay rate") # 学习率指数衰减 parser.add_argument("--decay_steps", default=140000, type=int, help="lr decay steps") # 每140000个batch降低学习率 parser.add_argument("--epsilon", default=0.1, type=float, help="label smoothing") # 标签滑动相关参数 ## 3.案例指导 本算法的详细使用方法,请查看《AI Gallery MaxoutDNN生成d-vector算法使用介绍》。 帖子链接:https://marketplace.huaweicloud.com/markets/aihub/article/detail/?content_id=a009bd5f-bb07-4511-88cc-f56e93beb2d5
Maxout-DNN(生成d-vector 用于Speaker change point detection/Tensorflow)
1.概述
此模型基于论文:SPEAKER SEGMENTATION USING DEEP SPEAKER VECTORS FOR FAST SPEAKER CHANGE SCENARIOS中使用的生成能代表音频文件d-vector特征的Maxout-DNN模型结构实现,我们提供了训练代码以及训练好的可直接用于部署的modelarts模型(在trained_model文件夹内)。用户可自己训练后将生成的.ckpt文件替换trained_model文件夹内的.ckpt文件用于部署。
项目 | 说明 |
---|---|
参考论文 | SPEAKER SEGMENTATION USING DEEP SPEAKER VECTORS FOR FAST SPEAKER CHANGE SCENARIOS |
·使用框架· | tensorflow-1.13.1 |
···训练集··· | Voxceleb1中随机选取的100个speaker |
··epoch数·· | 500 |
batch_size | 512 |
Table1测试集 | Voxceleb1 test dataset |
Table2测试集 | AMI test dataset |
音频文件Fbank维数 | 40 |
2.训练
2.1算法基本信息
- 任务类型:Speaker change point detection
- 支持的框架引擎:Tensorflow1.13.1-python3.6
- 算法输入:
- 首先按照preprocess.py文件进行预处理提取音频文件的logfbank特征并保存为feature.npy文件,其对应的speaker作为label转换为独热编码保存为label.npy文件。
- 将上述生成的npy文件保存在OBS中作为train.py文件的输入。
- 算法输出:
- 用于Tensorflow推导生成d-vector的.ckpt文件。
- 代码结构:
src
|-trained_model(可直接用于部署预测的模型)
|-checkpoint
|-model.ckpt
|-config.json
|-customizer_service.py
|-preprocess.py
|-trian.py
|-preprocess.py
|-evaluation.py
|-changepoint_detect.py
|-在线服务实例数据
|-批量服务实例数据
###2.2训练参数说明
parser.add_argument("–input_shape", default=40, type=int,help=“DNN input dimensions”) # Maxout-DNN输入维度,音频文件预处理logfbank特征维数(即滤波器个数)
parser.add_argument("–units", default=200, type=int, help=“hidden layer units”) # 隐藏层神经元个数
parser.add_argument("–label_nums", default=100, type=int, help=“classification labels”) # 多分类任务label个数
parser.add_argument("–batch_size", default=512, type=int, help=“batch_size”) # batch_size一批次输入个数
parser.add_argument("–epoch", default=2, type=int, help=“epochs”) # epoch训练轮次,可更改建议改为500
parser.add_argument("–print_step", default=20000, type=int, help=“print every print_step”) # 每20000个batch在验证集上验证效果
parser.add_argument("–prob", default=0.5, type=float, help=“dropout rate”) # dropout随机失活的概率
parser.add_argument("–lr", default=1e-4, type=float, help=“learning rate”) # Adam优化算法初始学习率
parser.add_argument("–decay_rate", default=0.1, type=float, help=“lr decay rate”) # 学习率指数衰减
parser.add_argument("–decay_steps", default=140000, type=int, help=“lr decay steps”) # 每140000个batch降低学习率
parser.add_argument("–epsilon", default=0.1, type=float, help=“label smoothing”) # 标签滑动相关参数
3.案例指导
本算法的详细使用方法,请查看《AI Gallery MaxoutDNN生成d-vector算法使用介绍》。
帖子链接:https://marketplace.huaweicloud.com/markets/aihub/article/detail/?content_id=a009bd5f-bb07-4511-88cc-f56e93beb2d5
Maxout-DNN(生成d-vector 用于Speaker change point detection/Tensorflow)
1.概述
此模型基于论文:SPEAKER SEGMENTATION USING DEEP SPEAKER VECTORS FOR FAST SPEAKER CHANGE SCENARIOS中使用的生成能代表音频文件d-vector特征的Maxout-DNN模型结构实现,我们提供了训练代码以及训练好的可直接用于部署的modelarts模型(在trained_model文件夹内)。用户可自己训练后将生成的.ckpt文件替换trained_model文件夹内的.ckpt文件用于部署。
项目 | 说明 |
---|---|
参考论文 | SPEAKER SEGMENTATION USING DEEP SPEAKER VECTORS FOR FAST SPEAKER CHANGE SCENARIOS |
·使用框架· | tensorflow-1.13.1 |
···训练集··· | Voxceleb1中随机选取的100个speaker |
··epoch数·· | 500 |
batch_size | 512 |
Table1测试集 | Voxceleb1 test dataset |
Table2测试集 | AMI test dataset |
音频文件Fbank维数 | 40 |
2.训练
2.1算法基本信息
- 任务类型:Speaker change point detection
- 支持的框架引擎:Tensorflow1.13.1-python3.6
- 算法输入:
- 首先按照preprocess.py文件进行预处理提取音频文件的logfbank特征并保存为feature.npy文件,其对应的speaker作为label转换为独热编码保存为label.npy文件。
- 将上述生成的npy文件保存在OBS中作为train.py文件的输入。
- 算法输出:
- 用于Tensorflow推导生成d-vector的.ckpt文件。
- 代码结构:
src
|-trained_model(可直接用于部署预测的模型)
|-checkpoint
|-model.ckpt
|-config.json
|-customizer_service.py
|-preprocess.py
|-trian.py
|-preprocess.py
|-evaluation.py
|-changepoint_detect.py
|-在线服务实例数据
|-批量服务实例数据
###2.2训练参数说明
parser.add_argument("–input_shape", default=40, type=int,help=“DNN input dimensions”) # Maxout-DNN输入维度,音频文件预处理logfbank特征维数(即滤波器个数)
parser.add_argument("–units", default=200, type=int, help=“hidden layer units”) # 隐藏层神经元个数
parser.add_argument("–label_nums", default=100, type=int, help=“classification labels”) # 多分类任务label个数
parser.add_argument("–batch_size", default=512, type=int, help=“batch_size”) # batch_size一批次输入个数
parser.add_argument("–epoch", default=2, type=int, help=“epochs”) # epoch训练轮次,可更改建议改为500
parser.add_argument("–print_step", default=20000, type=int, help=“print every print_step”) # 每20000个batch在验证集上验证效果
parser.add_argument("–prob", default=0.5, type=float, help=“dropout rate”) # dropout随机失活的概率
parser.add_argument("–lr", default=1e-4, type=float, help=“learning rate”) # Adam优化算法初始学习率
parser.add_argument("–decay_rate", default=0.1, type=float, help=“lr decay rate”) # 学习率指数衰减
parser.add_argument("–decay_steps", default=140000, type=int, help=“lr decay steps”) # 每140000个batch降低学习率
parser.add_argument("–epsilon", default=0.1, type=float, help=“label smoothing”) # 标签滑动相关参数
3.案例指导
本算法的详细使用方法,请查看《AI Gallery MaxoutDNN生成d-vector算法使用介绍》。
帖子链接:https://marketplace.huaweicloud.com/markets/aihub/article/detail/?content_id=a009bd5f-bb07-4511-88cc-f56e93beb2d5