锐英源软件
第一信赖

精通

英语

开源

擅长

开发

培训

胸怀四海 

第一信赖

当前位置:锐英源 / 软件开发 / Kaldi数据准备、Kaldi语音文件准备、Kaldi训练文件准备
政企荣誉
  • 亚马逊语音识别合作亚马逊语音识别合作
    意向种子企业,小语种方向
  • 资本力量1+6融资活动政府推荐参加资本力量
    1+6融资活动
  • 输入法全平台上市公司众为兴
    合作伙伴
  • 中航信飞机票务平台河南职教中心
    成人学历和能力培训合作联盟成员
联系方式
固话:0371-63888850
手机:138-0381-0136
Q Q:396806883
微信:ryysoft
头条号:软件技术及人才和养生
人工智能QQ群:14372360

Kaldi数据准备

 

Kaldi清华脚本训练文件准备

对于这个准备,锐英源软件精心总结了文档,客户依据这个文档能够自动处理文件,同时对于文件和音素标注,锐英源软件开发了自动化工具,如果需要这类自动化工具软件,请联系锐英源软件,网页右上角的社区热线可以联系。下面是文档的目录内容:

目录
前提 1
步骤说明 1
1、 首次运行准备数据后中断再运行 5
2、 wav和trn 5
2、data_thchs30\lm_phone目录下的lexicon.txt 6
3、data_thchs30\lm_word目录下的lexicon.txt 6
4、resource\dict目录下的lexicon.txt 7
5、resource\dict目录下的lexiconp.txt 7
6、resource\dict目录下的nonsilence_phones.txt 7
7、噪音文件 8
8、语言模型 9
9、音节语音模型 9
10、文件名 9
其它注意事项 9

 

锐英源软件对于kaldi里的wsj脚本的数据输入也擅长,对于不同的算法模型的输入输出及问题解决擅长,欢迎合作。

 

Kaldi语音文件准备

这类文件要准备好wav文件,同时对一些格式要处理下,锐英源在准备过程中掌握了sox用法,积累了一些好的处理脚本。


Kald训练文件准备参考。

text:

包含所有训练语句。每行中的第一个标记是话语的唯一 id;行的其余部分显示话语,全部大写。每个话语 id 开头的数字指定说话人 id(例如,第一行中的 107)。
107-GRIDSPACE_T0126ffdce48049a9_UTT1 UH HIGHWAY MY NAME IS DAVID JONES
107-GRIDSPACE_T0126ffdce48049a9_UTT3 I WANTED TO KNOW THE LOCAL BRANCH HOURS
107-GRIDSPACE_T0126ffdce48049a9_UTT6 NO THAT'S IT WILL BE ALL THANK YOU
107-GRIDSPACE_T0126ffdce48049a9_UTT8 YOU TOO BYE NOW
107-GRIDSPACE_T16319d899b0d4fec_UTT1 HI MY NAME IS MAYBE BROWN I NEED TO CHECK MY ACCOUNT BALANCE
107-GRIDSPACE_T1c4e1b0407594bb9_UTT1 MY NAME IS LINDA

segments或utt2dur:

包含 .wav 文件中标记每个话语开始和结束的秒数。它对中的每一行都有一个一对一的映射text。Kaldi 将使用此信息为语音模型裁剪正确的输入。
107-GRIDSPACE_T0126ffdce48049a9_UTT1 107-GRIDSPACE_F0126ffdce48049a9 9.02 12.32
107-GRIDSPACE_T0126ffdce48049a9_UTT3 107-GRIDSPACE_F0126ffdce48049a9 21.69 24.27
107-GRIDSPACE_T0126ffdce48049a9_UTT6 107-GRIDSPACE_F0126ffdce48049a9 44.19 45.78

utt2spk:

将每个话语映射到说话者 id。相关,{train,test}/spk2utt将每个说话者 id 映射到话语列表。
30-GRIDSPACE_Tca2f61d1fbd74667_UTT2 30
23-GRIDSPACE_T3200779259d544b5_UTT2 23
29-GRIDSPACE_T42c90e3299244cc4_UTT5 29
24-GRIDSPACE_T9a2fac8101ef4a87_UTT9 24

wav.scp:

将每个对话 id 映射到 .wav 文件的路径。对于此任务,我们不会区别对待座席和呼叫者。
40-GRIDSPACE_Fee34f34e93b64a6f data/raw/audio/caller/ee34f34e93b64a6f.wav
44-GRIDSPACE_Ff9e797a1807e41fd data/raw/audio/caller/f9e797a1807e41fd.wav
21-GRIDSPACE_Fd73be060c5994ae3 data/raw/audio/agent/d73be060c5994ae3.wav
33-GRIDSPACE_F076cd53656c64dc5 data/raw/audio/caller/076cd53656c64dc5.wav
的内容train,并test通过扬声器分开,这意味着所有的测试中分割音频文件是前所未见的扬声器。一个好的 ASR 系统的挑战是推广到野外的说话者。

words.txt:

包含由新行分隔的所有话语。Kaldi 将使用它来构建语言模型。语言模型用于将转录偏向“类人”文本。

local/lang/lexicon.txt:

Kaldi 训练的 HMM 模型是通过音素(而不是单词)。也就是说,我们需要能够分解我们对音素的话语中的标记。我们在CMUDict的“词典”中对此进行了硬编码。
ABYSMAL AH0 B IH1 Z M AH0 L
ABYSMALLY AH0 B IH1 Z M AH0 L IY0
ABYSS AH0 B IH1 S
ABYSSINIA AE0 B S IH1 N IY2 AH0
ABYSSINIAN AE0 B S IH1 N IY2 AH0 N
ABZUG AE1 B Z AH2 G
ABZUG(1) AE1 B Z UH2 G
通过这个词典,我们向 Kaldi 提供了有关语音和单词发音的先验信息。在构建 Kaldi 系统时,拥有一个好的词典是非常重要的。

local/lang/{optional_silence.txt/silence_phones.txt}:

音素代表沉默或未知标记的硬编码。在我们的词典中,token<UNK>表示词汇外的单词。

local/lang/{nonsilence_phones.txt}:

所有非静音音素的列表。

lang/*: 用于处理自然语言的文件。例如,lang/words.txt将每个单词映射到唯一索引,而lang/phonemes.txt将每个音素映射到唯一索引。

检查启动代码(1 分)

如您所见,Kaldi 格式非常具体。因此,开发人员为您提供了帮助函数来检查数据格式是否正确。作为您的第一项任务,在您的训练和测试文件夹上运行以下脚本以验证格式:

utils/validate_data_dir.sh ./data/train --no-feats

锐英源软件语音识别能力介绍

锐英源软件在2021年开发完成了多核解码语音识别转文字系统,经过了深圳客商的验收,多核解码对单核解码更有效率,达到多个模型同时解码一个音频流目标。

锐英源软件在2021年前,有过多年的语音识别系统开发经验,从事的相当于最难的小语种语音识别系统开发,也和一批技术精湛的朋友互通有无优势互补,完成了过大量英文网站的搜索理解和翻译,对语音识别系统全平台开发积累了大量的开发文档和错误解决文档,向中小公司提供语音识别系统、离线语音识别系统和现场语音识别系统产品和服务,有信心有实力,欢迎合作。

翻译和技术相关链接有:Kaldi语音识别ASR开源DNN

锐英源软件对kaldi平台里的语音识别转文字代码都非常精通,不管是wav转,还是在线TCP形式转,都进行过深入研究,相当于掌握了语音识别转文字开源技术,里面主要和路径(术语)有关。另外对TCP形式的数据处理有过产品化开发细节成功案例。

另外对于小型平台的语音识别转文字,锐英源软件擅长CMU Sphinx的集成和产品化工作,欢迎合作。

友情链接
版权所有 Copyright(c)2004-2015 锐英源软件
公司注册号:410105000449586 豫ICP备08007559号 最佳分辨率 1024*768
地址:A、郑州市芯互联大厦北楼1803A(文化路优胜北路西北角),B、郑州大学北校区院内