CMU调节性能

调整语音识别的准确性

语音识别的准确性并不总是很好。
首先，重要的是要了解您的准确度是否低于预期，或者一般是否非常低。如果精度一般非常低，则很可能是错误配置了解码器。如果低于预期，您可以采用各种方法来改进它。
您应该做的第一件事是收集测试样本数据库并测量识别准确性。您需要将话语转储到wav文件中，编写参考文本并使用解码器对其进行解码。然后使用Sphinxtrain中的工具word_align.pl计算字错误率（WER）。测试数据库的大小取决于准确性，但通常只需30分钟的转录音频就可以可靠地测试识别器的准确性。
只有拥有测试数据库，才能继续优化识别准确性。
准确性差的原因
准确性差的主要原因是：

采样率与输入音频的通道数不匹配或输入音频带宽不匹配。它必须是16 kHz（或8 kHz，取决于训练数据），16位Mono（=单通道）Little-Endian文件。您需要使用重新采样来修复源的采样率（仅当其速率高于训练数据的速率时）。您不应对文件进行上采样，并使用具有更高采样率的音频训练的声学模型对其进行解码。可以使用该命令验证音频文件格式（采样率，通道数）

sox --i /path/to/audio/file

在此处查找更多信息：

声学模型的不匹配。要验证此假设，您需要从测试数据库文本构建语言模型。这样的语言模型非常好，必须给你很高的准确性。如果精度仍然很低，则需要在声学模型上进行更多工作。您可以使用声学模型自适应来提高准确性。
语言模型的不匹配。您可以创建自己的语言模型以匹配您尝试解码的词汇表。
字典中的不匹配和单词的发音。在这种情况下，必须在语音词典中完成一些工作。

测试数据库设置
要测试识别，您需要使用所需的参数配置解码，特别是，您需要具有语言模型<your.lm>。有关更多详细信息，请参阅构建语言模型页面。
创建一个fileids文件test.fileids：
test1
test2
创建一个转录文件test.transcription：
some text (test1)
some text (test2)
将音频文件放在wav文件夹中。确保这些文件具有适当的格式和采样率。
└─ wav
├─ test1.wav
└─ test2.wav
运行测试
现在，让我们运行解码器：
pocketsphinx_batch \
-adcin yes \
-cepdir wav \
-cepext .wav \
-ctl test.fileids \
-lm `<your.lm>` \ # for example en-us.lm.bin from pocketsphinx
-dict `<your.dic>` \ # for example cmudict-en-us.dict from pocketsphinx
-hmm `<your_hmm>` \ # for example en-us
-hyp test.hyp

word_align.pl test.transcription test.hyp
该word_align.pl脚本是sphinxtrain发行版的一部分。
-samprate 8000如果要解码8 kHz文件，请务必将选项添加到上述命令中！
word-align.pl来自Sphinxtrain 的脚本将向您报告确切的错误率，您可以使用它来确定适应性是否适合您。它看起来像这样：
TOTAL Words: 773 Correct: 669 Errors: 121
TOTAL Percent correct = 86.55% Error = 15.65% Accuracy = 84.35%
TOTAL Insertions: 17 Deletions: 11 Substitutions: 93
要查看解码的速度，请检查pocketsphinx日志，它应如下所示：
INFO: batch.c(761): 2484510: 9.09 seconds speech, 0.25 seconds CPU, 0.25 seconds wall
INFO: batch.c(763): 2484510: 0.03 xRT (CPU), 0.03 xRT (elapsed)
具有0.03 xRT解码速度（“记录时间的0.03倍”）。

友情链接

汕头招聘网 | 山东招聘网 | 郑州教育培训 | 软件下载