智能语音识别软件(CMU Sphinx)最新开源版【中文】

系统:WinAll 大小:237KB

类型:编程相关 更新:2016-03-14 14:45

介绍 相关 评论(0)

CMU Sphinx 是一款开源、免费的智能语音识别软件。它可以用于多种不同的场合。语音转录、字幕、语言翻译、声音搜索和语言学习等等,也因为它是开源的,它允许研究人员和开发人员建立语音识别系统。欢迎免费下载!

CMU Sphinx有哪些功能

语音识别

音频转录

标题对齐

IVR

文字转语音

CMU Sphinx怎么用

建立语言模型

有几种类型的模型描述语言识别——关键字列表,语法和统计语言模型,语音的统计语言模型。 你可以选择任何解码方式根据您的需求,你甚至可以在运行时模式之间切换。

关键字列表

Pocketsphinx支持关键字定位模式,您可以指定要查找关键字列表。 这种模式的优点是,你可以指定一个阈值为每个关键字,关键字可以连续语音中发现。 所有其他模式将试图从语法检测的话即使你使用的话,没有语法。 关键字列表看起来像这样:

oh mighty computer /1e-40/

hello world /1e-30/

other phrase /1e-20/

阈值必须指定每一个短语。 等较短的短语可以使用较小的阈值1 e 1,必须更大更长时间阈值。 假警报阈值必须调整平衡,错过了检测,调整阈值的最佳方法是使用一个预先录制的音频文件。

最好的精度最好有短语3 - 4音节。 太短的短语很容易混淆。

关键字列表支持pocketsphinx,而不是sphinx4。

语法

语法描述非常简单类型的命令和控制的语言,和他们通常是手写或自动生成的代码。 语法通常没有词序列的概率,但一些元素可能重。 语法可以创建JSGF格式和通常有扩展。 克或.jsgf。

语法允许精确指定可能的输入,例如,某些词可能只重复两到三次。 然而,这种严格可能是有害的,如果用户不小心跳过的话语法要求。 在这种情况下整个识别将会失败。 因此最好使语法更放松,而不是短语的袋子单词列表允许任意的顺序。 避免与许多非常复杂的语法规则和情况下,它只是减缓识别器,可以使用简单的规则。 在过去的语法需要大量的努力调整,正确分配变异等等。 大的VXML咨询行业。

语言模型

统计语言模型描述更复杂的语言。 它们包含概率的词和词的组合。 这些概率估计的样本数据,并自动有一些灵活性。 例如,每个词汇的组合是可能的,虽然这样的组合的概率可能有所不同。 例如,如果你创建统计语言模型从一个单词列表,它将仍然允许解码词组合尽管它可能不是你的意图。 总的来说,统计语言模型推荐自由输入,用户可以说任何一个自然语言和他们需要工程工作比语法,你只是列出可能的句子。 例如,您可能数字列表“二十”和“三十三”和统计语言模型将允许“三十”有一定概率。

总的来说,现代语音识别接口往往更自然,避免指挥控制的上一代风格。 因此大多数界面设计师喜欢自然语言识别与统计语言模型比传统的VXML语法。

设计主题的VUI接口你可能感兴趣的书如下: 最好是一个很好的机比坏人:语音识别和其他外来用户界面由布鲁斯Balentine Jetsonian时代的《暮光之城》

有很多方法可以建立统计语言模型。 当您的数据集很大,有使用CMU语言建模工具包。 小模型时,您可以使用一个在线快速web服务。 当你需要特定的选项或者你只是想用你最喜欢的工具包构建ARPA模型,您可以使用它。

语言模型可以存储和加载在三个不同的格式文本 ARPA 格式,二进制格式本和二进制DMP格式。 ARPA格式需要更多空间,可以编辑它。 ARPA文件 .lm 扩展。 二进制格式需要大大减少空间和更快的加载。 二进制文件 .lm.bin 扩展。 也可以在格式之间进行转换。 DMP格式是过时的,不推荐。

建立一个语法

语法通常是手工编写JSGF格式:

#JSGF V1.0;

/**

* JSGF Grammar for Hello World example

*/

grammar hello;

public <greet> = (good morning | hello) ( bhiksha | evandro | paul | philip | rita | will );

展开全部

应用信息

猜你喜欢
    电脑语音识别软件
    电脑语音识别软件可以快速识别语音文件,直接转换为文档,非常方便!语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、
    进入专区

    相关文章

    玩家留言 跟帖评论
    查看更多评论
    其它版本