百度语音开放平台SDK的用户指南——短语音识别、离线自定义命令词识别

商务合作联系微信：telegram: @tianmeiapp
站长邮箱：[email protected]

概览

本文档是百度语音开放平台SDK的使用指南。介绍了短语音识别、实时语音识别、离线自定义命令词识别、远场语音识别、语音唤醒、语义解析、对话管理等相关接口的使用。阐明。 SDK内部采用流式协议，即用户边说话边处理。不同于需要上传整个录音文件。

短语音识别和实时语音识别在 SDK 中，由开关控制。开启实时语音开关即为实时语音识别服务；关闭实时语音开关是短语音识别服务，一次可以识别60s。开关设置详情请查看

版本更新jar文件名日期更新内容

.jar

2021-06-04

修复SDK中的unit函数无法使用的问题

b546d.jar

2021-03-02

新增语音参数；开启长语音模式即使用实时语音识别界面，按界面实际通话时间计费

acdf5.jar

2020-01-06

修改默认PID为1537

d0afc.jar

2019-10-30

不再依赖权限；优化认证错误

eed5d.jar

2019-06-05

添加对 API LEVEL 28 的编译支持

f298a.jar

2018-08-13

修复在线不可用的本地语义；修复长语音回调

兼容类别兼容范围

系统

支持4.0.3及以上API LEVEL 15

型号

在手机和平板电脑上列出。没有对其他设备和自定义系统的官方支持

硬件要求

需要设备上的麦克风

网络

支持移动网络（不包括2G）、WIFI等网络环境

开发环境

建议开发最新版本

功能介绍

语音识别SDK的功能主要分为语音识别和语义理解和对话管理

语音识别：将录音转换为文本。目前在线识别支持普通话、英语、粤语和四川话。语义理解和对话管理：提取语音识别文本的意图和关键信息并做出响应。

音频格式要求：

默认为麦克风输入，参数可设置为pcm格式16k采样率、16bit、、单声道音频流输入。

语音识别

语音识别可分为在线识别、离线命令词、唤醒词

在线识别：网上使用的识别功能，支持自定义词库和自学平台。目前，在线识别支持普通话、英语、粤语和四川话。通过请求时配置不同的pid参数，选择对应的模型。默认为麦克风输入，参数可设置为pcm格式16k采样率、16bit、、单声道音频流输入。离线命令词：在网络断开时识别固定的预定义短语（在bsg文件中定义），SDK强制优先使用在线识别。断开连接时激活，仅识别预定义的短语。连接到时，必须进行在线身份验证。固定短语的语法需要预先定义并从控制台“离线单词和本地语义”模块中下载为.bsg文件唤醒词：识别预定义的“关键字”，该关键字必须位于句子的开头。本地功能，无需网络。唤醒词是识别“关键词”。当 SDK 的识别引擎“听到”录音中的关键词时，它会立即通知用户。它与系统的锁屏唤醒完全无关。关键字与离线命令词相同，需要预定义并下载为.bin文件

没有离线任意句识别和声纹识别功能。目前还没有公版离线任意句识别和声纹识别

在线识别

在线是指当手机连接到互联网时（3G 4G 5G wifi），

网上鉴定可分为：

在线通用识别：流式识别识别用户输入的录制音频流，支持普通话、英语、粤语和四川话。时间限制为 60 秒。在线长语音识别：在普通在线识别的基础上，没有60s的时间限制。在线识别可以测试DEMO中第一个按钮“在线识别”。

在线识别的三种模式：

输入法模型（推荐）：适合长句输入，模型和识别效果类似于百度输入法。远场模型：用于远离麦克风的音频输入。

自定义词库

设置方法：

登录百度云管理中心“设置”右侧的“管理应用”“选择应用”“语音识别词库设置”；

设置效果：

您可以自定义识别词以提高准确性。仅在普通话输入法模式下生效。自定义词库适用于短句，确保词库中相同的短句都能被识别。词库中的分词优先级更高。

例子词库定义了一个短句：1.“轮渡来了”百度内部处理的可能分词结果：轮渡来了。

以下记录的结果

原音：轮渡来了=“识别结果：轮渡来了[保证结果] 原音：轮渡来了=”识别结果：是否来自百度[可能的结果，不保证]原音：渡船来了=》识别结果：百度来了[可能结果，不保证]原音：百度来了好消息=》识别结果：渡船来了好消息[不保证，词库分词率高优先]

最好在一万行以内。

副作用：如果用户的测试集包含大量非自定义词汇的查询，整体准确率会下降。

语音自学平台模型训练

自练平台可视为自定义词库的升级版，让您更直观地查看训练效果。还可以使用您的自定义文本进行结果优化。

具体功能及使用说明请参考文档《自学平台手册》

离线命令词

离线指令字，联网时强制在线识别，断网或在线请求超时时使用离线指令字功能。离线命令词功能不支持任意句子的识别，只能识别预定义的固定词组。

唤醒词

唤醒词是预定义的“关键词”的标识。与返回所有识别结果的在线长语音识别不同，唤醒词只会识别您预定义的关键字。它与锁屏唤醒本身无关。

唤醒词是一项本地功能，在正常使用期间不需要互联网连接。您可以在页面底部定义自己的 bin 文件。百度语音提供近15个预定义唤醒词，效果优化。您还可以自定义唤醒词，它不如预定义的唤醒词有效。 bin文件中最多可以有10个唤醒词，其中自定义唤醒词不超过3个，2个字符的预定义唤醒词不超过3个。在唤醒词操作之前必须有相对静默。

语义

语义包括理解和对话管理，可用于从语音识别文本中提取意图和关键信息并做出响应。目前，百度语音识别技术和百度NLP已经实现了这个过程。 NLP部分由百度语义理解与对话管理平台UNIT提供。语音识别 SDK 提供了 3 种连接语义的方式：

在线语义：

局部语义：

录音环境

百度短语音识别（含唤醒）需要安静的环境，真人正常语速，不能多人同时发音。

以下场景会导致识别或唤醒性能不佳、出错，甚至无结果：

带有背景音乐的嘈杂环境，包括播放百度合成语音的扬声器。距离麦克风较远的场景应该选择远场语音识别。

以下场景的录音可能没有正确的识别结果：

音频包含技术专业名称或术语（技术专业名称请参考自练平台）音频包含某个专业领域的对话，不是日常用语。如专业会议、漫画等。

百度识别和合成sdk相互独立，没有“相互取消”之类的功能。建议先收集一定数量的真实环境测试集，然后根据测试集进行评估和反馈。

DEMO压缩包说明

DEMO压缩包可下载运行，SDK库已附在DEMO中。

demo的根目录下有ANT.txt，使用前请阅读。 demo根目录下有一个MENT目录粤语语音转文字在线翻译，里面有demo的测试图文教程和集成图文教程。

官方授权

唤醒词和离线命令词功能需要正式的授权文件。官方授权由SDK内部管理，没有对外接口。官方授权文件是在第一次使用SDK识别功能时下载的，例如第一次使用唤醒词功能或第一次在线识别后，SDK会自动下载官方授权文件。正式授权文件在新创建应用程序后35个月内有效。最近一个月，SDK一旦发现官方授权文件失效或即将失效，会尝试更新授权文件

注意appId包名() 4 必须完全正确才能自动下载官方授权文件。

一般录音设置

以下两个参数可用于识别和唤醒；

导入外部音频文件

SDK默认麦克风的音频输入可以更改为自定义音频文件或自定义音频流。该参数可以导入音频文件或语音流进行识别，适用于自定义音频输入。音频格式为pcm，16000采样率，16bit，单声道，小端；

引入外部音频文件（识别和唤醒都可以）

DEMO中的测试方法：（详见识别 SDK测试文档）

demo测试：点击在线识别=>=> audio=>.pcm，16k采样测试音频

请求示例：使用本地音频文件.pcm识别

{"accept-audio-volume":false,"infile":"res:///com/baidu/android/voicedemo/16k_test.pcm"}

外部音频流，格式为：“#com.test..()”，详见

{"accept-audio-volume":false,"infile":"#com.test.Factory.create16KInputStream()"}

有关高级使用说明，请参阅 MENT/-.md 文档

保存录音文件

SDK 识别后，可以保存识别到的音频，如复制。该参数可以保存录音文件。该参数需要设置；反馈问题时，请使用此参数保存音频文件，并使用以上参数重现。

保存录音文件

DEMO中的测试方法：（详见识别 SDK测试文档）

demo测试：点击在线识别设置保存音频，开启音频回调。

示例请求：将音频保存到 ///0//.pcm

{"accept-audio-data":true,"accept-audio-volume":false,"outfile":"/storage/emulated/0/baiduASR/outfile.pcm"}

其他更新请查看DEMO文件

SDK库文件资源名称资源大小资源描述

.jar

大约 130KB

jar 库

NDK so 库架构

一共5个架构目录：-v7a、arm64-v8a、x86，每个架构有以下5个so库文件。

资源名称资源大小

.so

大约 700K

.dat.so

大约2.2M

.so

大约 400K

.so

关于1.3M

.dnn.so

大约 40K

NDK 所以库被简化

如果要节省安装包大小粤语语音转文字在线翻译，只能使用目录，性能损失小。

如果只需要在线识别功能，只需要.so和.dnn.so这2个so文件。

商务合作联系微信：telegram: @tianmeiapp
站长邮箱：[email protected]

原文链接：百度语音开放平台SDK的用户指南——短语音识别、离线自定义命令词识别，转载请注明来源！

发表回复 取消回复

发表回复取消回复