系统:WinAll 大小:237KB
类型:编程相关 更新:2016-03-14 14:45
CMU Sphinx 是一款开源、免费的智能语音识别软件。它可以用于多种不同的场合。语音转录、字幕、语言翻译、声音搜索和语言学习等等,也因为它是开源的,它允许研究人员和开发人员建立语音识别系统。欢迎免费下载!
语音识别
音频转录
标题对齐
IVR
文字转语音
建立语言模型
有几种类型的模型描述语言识别——关键字列表,语法和统计语言模型,语音的统计语言模型。 你可以选择任何解码方式根据您的需求,你甚至可以在运行时模式之间切换。
关键字列表
Pocketsphinx支持关键字定位模式,您可以指定要查找关键字列表。 这种模式的优点是,你可以指定一个阈值为每个关键字,关键字可以连续语音中发现。 所有其他模式将试图从语法检测的话即使你使用的话,没有语法。 关键字列表看起来像这样:
oh mighty computer /1e-40/
hello world /1e-30/
other phrase /1e-20/
阈值必须指定每一个短语。 等较短的短语可以使用较小的阈值1 e 1,必须更大更长时间阈值。 假警报阈值必须调整平衡,错过了检测,调整阈值的最佳方法是使用一个预先录制的音频文件。
最好的精度最好有短语3 - 4音节。 太短的短语很容易混淆。
关键字列表支持pocketsphinx,而不是sphinx4。
语法
语法描述非常简单类型的命令和控制的语言,和他们通常是手写或自动生成的代码。 语法通常没有词序列的概率,但一些元素可能重。 语法可以创建JSGF格式和通常有扩展。 克或.jsgf。
语法允许精确指定可能的输入,例如,某些词可能只重复两到三次。 然而,这种严格可能是有害的,如果用户不小心跳过的话语法要求。 在这种情况下整个识别将会失败。 因此最好使语法更放松,而不是短语的袋子单词列表允许任意的顺序。 避免与许多非常复杂的语法规则和情况下,它只是减缓识别器,可以使用简单的规则。 在过去的语法需要大量的努力调整,正确分配变异等等。 大的VXML咨询行业。
语言模型
统计语言模型描述更复杂的语言。 它们包含概率的词和词的组合。 这些概率估计的样本数据,并自动有一些灵活性。 例如,每个词汇的组合是可能的,虽然这样的组合的概率可能有所不同。 例如,如果你创建统计语言模型从一个单词列表,它将仍然允许解码词组合尽管它可能不是你的意图。 总的来说,统计语言模型推荐自由输入,用户可以说任何一个自然语言和他们需要工程工作比语法,你只是列出可能的句子。 例如,您可能数字列表“二十”和“三十三”和统计语言模型将允许“三十”有一定概率。
总的来说,现代语音识别接口往往更自然,避免指挥控制的上一代风格。 因此大多数界面设计师喜欢自然语言识别与统计语言模型比传统的VXML语法。
设计主题的VUI接口你可能感兴趣的书如下: 最好是一个很好的机比坏人:语音识别和其他外来用户界面由布鲁斯Balentine Jetsonian时代的《暮光之城》
有很多方法可以建立统计语言模型。 当您的数据集很大,有使用CMU语言建模工具包。 小模型时,您可以使用一个在线快速web服务。 当你需要特定的选项或者你只是想用你最喜欢的工具包构建ARPA模型,您可以使用它。
语言模型可以存储和加载在三个不同的格式文本 ARPA 格式,二进制格式本和二进制DMP格式。 ARPA格式需要更多空间,可以编辑它。 ARPA文件 .lm 扩展。 二进制格式需要大大减少空间和更快的加载。 二进制文件 .lm.bin 扩展。 也可以在格式之间进行转换。 DMP格式是过时的,不推荐。
建立一个语法
语法通常是手工编写JSGF格式:
#JSGF V1.0;
/**
* JSGF Grammar for Hello World example
*/
grammar hello;
public <greet> = (good morning | hello) ( bhiksha | evandro | paul | philip | rita | will );
应用信息