CMU Sphinx 下载-智能语音识别软件(CMU Sphinx)最新开源版【中文】下载

CMU Sphinx 是一款开源、免费的智能语音识别软件。它可以用于多种不同的场合。语音转录、字幕、语言翻译、声音搜索和语言学习等等，也因为它是开源的，它允许研究人员和开发人员建立语音识别系统。欢迎免费下载！

CMU Sphinx有哪些功能

语音识别

音频转录

标题对齐

IVR

文字转语音

CMU Sphinx怎么用

建立语言模型

有几种类型的模型描述语言识别——关键字列表,语法和统计语言模型,语音的统计语言模型。你可以选择任何解码方式根据您的需求,你甚至可以在运行时模式之间切换。

关键字列表

Pocketsphinx支持关键字定位模式,您可以指定要查找关键字列表。这种模式的优点是,你可以指定一个阈值为每个关键字,关键字可以连续语音中发现。所有其他模式将试图从语法检测的话即使你使用的话,没有语法。关键字列表看起来像这样:

oh mighty computer /1e-40/

hello world /1e-30/

other phrase /1e-20/

阈值必须指定每一个短语。等较短的短语可以使用较小的阈值1 e 1,必须更大更长时间阈值。假警报阈值必须调整平衡,错过了检测,调整阈值的最佳方法是使用一个预先录制的音频文件。

最好的精度最好有短语3 - 4音节。太短的短语很容易混淆。

关键字列表支持pocketsphinx,而不是sphinx4。

语法

语法描述非常简单类型的命令和控制的语言,和他们通常是手写或自动生成的代码。语法通常没有词序列的概率,但一些元素可能重。语法可以创建JSGF格式和通常有扩展。克或.jsgf。

语法允许精确指定可能的输入,例如,某些词可能只重复两到三次。然而,这种严格可能是有害的,如果用户不小心跳过的话语法要求。在这种情况下整个识别将会失败。因此最好使语法更放松,而不是短语的袋子单词列表允许任意的顺序。避免与许多非常复杂的语法规则和情况下,它只是减缓识别器,可以使用简单的规则。在过去的语法需要大量的努力调整,正确分配变异等等。大的VXML咨询行业。

语言模型

统计语言模型描述更复杂的语言。它们包含概率的词和词的组合。这些概率估计的样本数据,并自动有一些灵活性。例如,每个词汇的组合是可能的,虽然这样的组合的概率可能有所不同。例如,如果你创建统计语言模型从一个单词列表,它将仍然允许解码词组合尽管它可能不是你的意图。总的来说,统计语言模型推荐自由输入,用户可以说任何一个自然语言和他们需要工程工作比语法,你只是列出可能的句子。例如,您可能数字列表“二十”和“三十三”和统计语言模型将允许“三十”有一定概率。

总的来说,现代语音识别接口往往更自然,避免指挥控制的上一代风格。因此大多数界面设计师喜欢自然语言识别与统计语言模型比传统的VXML语法。

设计主题的VUI接口你可能感兴趣的书如下: 最好是一个很好的机比坏人:语音识别和其他外来用户界面由布鲁斯Balentine Jetsonian时代的《暮光之城》

有很多方法可以建立统计语言模型。当您的数据集很大,有使用CMU语言建模工具包。小模型时,您可以使用一个在线快速web服务。当你需要特定的选项或者你只是想用你最喜欢的工具包构建ARPA模型,您可以使用它。

语言模型可以存储和加载在三个不同的格式文本 ARPA 格式,二进制格式本和二进制DMP格式。 ARPA格式需要更多空间,可以编辑它。 ARPA文件 .lm 扩展。二进制格式需要大大减少空间和更快的加载。二进制文件 .lm.bin 扩展。也可以在格式之间进行转换。 DMP格式是过时的,不推荐。

建立一个语法

语法通常是手工编写JSGF格式:

#JSGF V1.0;

/**

* JSGF Grammar for Hello World example

grammar hello;