首页 » 技术教程 » 百度语音开放平台SDK的用户指南——短语音识别、离线自定义命令词识别

百度语音开放平台SDK的用户指南——短语音识别、离线自定义命令词识别

 

商务合作联系微信:telegram: @tianmeiapp
    站长邮箱:[email protected]  

概览

本文档是百度语音开放平台SDK的使用指南。介绍了短语音识别、实时语音识别、离线自定义命令词识别、远场语音识别、语音唤醒、语义解析、对话管理等相关接口的使用。阐明。 SDK内部采用流式协议,即用户边说话边处理。不同于需要上传整个录音文件。

短语音识别和实时语音识别在 SDK 中,由开关控制。开启实时语音开关即为实时语音识别服务;关闭实时语音开关是短语音识别服务,一次可以识别60s。开关设置详情请查看

版本更新jar文件名日期更新内容

.jar

2021-06-04

修复SDK中的unit函数无法使用的问题

b546d.jar

2021-03-02

新增语音参数;开启长语音模式即使用实时语音识别界面,按界面实际通话时间计费

acdf5.jar

2020-01-06

修改默认PID为1537

d0afc.jar

2019-10-30

不再依赖权限;优化认证错误

eed5d.jar

2019-06-05

添加对 API LEVEL 28 的编译支持

f298a.jar

2018-08-13

粤语语音转文字在线翻译_文字在线转语音_文字转语音在线版

修复在线不可用的本地语义;修复长语音回调

兼容类别兼容范围

系统

支持4.0.3及以上API LEVEL 15

型号

在手机和平​​板电脑上列出。没有对其他设备和自定义系统的官方支持

硬件要求

需要设备上的麦克风

网络

支持移动网络(不包括2G)、WIFI等网络环境

开发环境

建议开发最新版本

功能介绍

语音识别SDK的功能主要分为语音识别和语义理解和对话管理

语音识别:将录音转换为文本。目前在线识别支持普通话、英语、粤语和四川话。语义理解和对话管理:提取语音识别文本的意图和关键信息并做出响应。

音频格式要求:

默认为麦克风输入,参数可设置为pcm格式16k采样率、16bit、 、单声道音频流输入。

语音识别

语音识别可分为在线识别、离线命令词、唤醒词

在线识别:网上使用的识别功能,支持自定义词库和自学平台。目前,在线识别支持普通话、英语、粤语和四川话。通过请求时配置不同的pid参数,选择对应的模型。默认为麦克风输入,参数可设置为pcm格式16k采样率、16bit、 、单声道音频流输入。离线命令词:在网络断开时识别固定的预定义短语(在bsg文件中定义),SDK强制优先使用在线识别。断开连接时激活,仅识别预定义的短语。连接到 时,必须进行在线身份验证。固定短语的语法需要预先定义并从控制台“离线单词和本地语义”模块中下载为.bsg文件唤醒词:识别预定义的“关键字”,该关键字必须位于句子的开头。本地功能,无需网络。唤醒词是识别“关键词”。当 SDK 的识别引擎“听到”录音中的关键词时,它会立即通知用户。它与系统的锁屏唤醒完全无关。关键字与离线命令词相同,需要预定义并下载为.bin文件

文字转语音在线版_文字在线转语音_粤语语音转文字在线翻译

没有离线任意句识别和声纹识别功能。目前还没有公版离线任意句识别和声纹识别

在线识别

在线是指当手机连接到互联网时(3G 4G 5G wifi),

网上鉴定可分为:

在线通用识别:流式识别识别用户输入的录制音频流,支持普通话、英语、粤语和四川话。时间限制为 60 秒。在线长语音识别:在普通在线识别的基础上,没有60s的时间限制。在线识别可以测试DEMO中第一个按钮“在线识别”。

在线识别的三种模式:

输入法模型(推荐):适合长句输入,模型和识别效果类似于百度输入法。远场模型:用于远离麦克风的音频输入。

自定义词库

设置方法:

登录百度云管理中心“设置”右侧的“管理应用”“选择应用”“语音识别词库设置”;

设置效果:

您可以自定义识别词以提高准确性。仅在普通话输入法模式下生效。自定义词库适用于短句,确保词库中相同的短句都能被识别。词库中的分词优先级更高。

例子词库定义了一个短句:1.“轮渡来了”百度内部处理的可能分词结果:轮渡来了。

以下记录的结果

原音:轮渡来了=“识别结果:轮渡来了[保证结果] 原音:轮渡来了=”识别结果:是否来自百度[可能的结果,不保证]原音:渡船来了=》识别结果:百度来了[可能结果,不保证]原音:百度来了好消息=》识别结果:渡船来了好消息[不保证,词库分词率高优先]

最好在一万行以内。

副作用:如果用户的测试集包含大量非自定义词汇的查询,整体准确率会下降。

语音自学平台模型训练

自练平台可视为自定义词库的升级版,让您更直观地查看训练效果。还可以使用您的自定义文本进行结果优化。

具体功能及使用说明请参考文档《自学平台手册》

文字在线转语音_文字转语音在线版_粤语语音转文字在线翻译

离线命令词

离线指令字,联网时强制在线识别,断网或在线请求超时时使用离线指令字功能。离线命令词功能不支持任意句子的识别,只能识别预定义的固定词组。

唤醒词

唤醒词是预定义的“关键词”的标识。与返回所有识别结果的在线长语音识别不同,唤醒词只会识别您预定义的关键字。它与锁屏唤醒本身无关。

唤醒词是一项本地功能,在正常使用期间不需要互联网连接。您可以在页面底部定义自己的 bin 文件。百度语音提供近15个预定义唤醒词,效果优化。您还可以自定义唤醒词,它不如预定义的唤醒词有效。 bin文件中最多可以有10个唤醒词,其中自定义唤醒词不超过3个,2个字符的预定义唤醒词不超过3个。在唤醒词操作之前必须有相对静默。

语义

语义包括理解和对话管理,可用于从语音识别文本中提取意图和关键信息并做出响应。目前,百度语音识别技术和百度NLP已经实现了这个过程。 NLP部分由百度语义理解与对话管理平台UNIT提供。语音识别 SDK 提供了 3 种连接语义的方式:

在线语义:

局部语义:

录音环境

百度短语音识别(含唤醒)需要安静的环境,真人正常语速,不能多人同时发音。

以下场景会导致识别或唤醒性能不佳、出错,甚至无结果:

带有背景音乐的嘈杂环境,包括播放百度合成语音的扬声器。距离麦克风较远的场景应该选择远场语音识别。

以下场景的录音可能没有正确的识别结果:

音频包含技术专业名称或术语(技术专业名称请参考自练平台) 音频包含某个专业领域的对话,不是日常用语。如专业会议、漫画等。

百度识别和合成sdk相互独立,没有“相互取消”之类的功能。建议先收集一定数量的真实环境测试集,然后根据测试集进行评估和反馈。

DEMO压缩包说明

DEMO压缩包可下载运行,SDK库已附在DEMO中。

demo的根目录下有ANT.txt,使用前请阅读。 demo根目录下有一个MENT目录粤语语音转文字在线翻译,里面有demo的测试图文教程和集成图文教程。

官方授权

文字在线转语音_粤语语音转文字在线翻译_文字转语音在线版

唤醒词和离线命令词功能需要正式的授权文件。官方授权由SDK内部管理,没有对外接口。官方授权文件是在第一次使用SDK识别功能时下载的,例如第一次使用唤醒词功能或第一次在线识别后,SDK会自动下载官方授权文件。正式授权文件在新创建应用程序后35个月内有效。最近一个月,SDK一旦发现官方授权文件失效或即将失效,会尝试更新授权文件

注意appId包名() 4 必须完全正确才能自动下载官方授权文件。

一般录音设置

以下两个参数可用于识别和唤醒;

导入外部音频文件

SDK默认麦克风的音频输入可以更改为自定义音频文件或自定义音频流。该参数可以导入音频文件或语音流进行识别,适用于自定义音频输入。音频格式为pcm,16000采样率,16bit,单声道,小端;

引入外部音频文件(识别和唤醒都可以)

DEMO中的测试方法:(详见识别 SDK测试文档)

demo测试:点击在线识别=>=> audio=>.pcm,16k采样测试音频

请求示例:使用本地音频文件.pcm识别

{"accept-audio-volume":false,"infile":"res:///com/baidu/android/voicedemo/16k_test.pcm"}

外部音频流,格式为:“#com.test..()”,详见

{"accept-audio-volume":false,"infile":"#com.test.Factory.create16KInputStream()"}

有关高级使用说明,请参阅 MENT/-.md 文档

保存录音文件

SDK 识别后,可以保存识别到的音频,如复制。该参数可以保存录音文件。该参数需要设置;反馈问题时,请使用此参数保存音频文件,并使用以上参数重现。

保存录音文件

DEMO中的测试方法:(详见识别 SDK测试文档)

demo测试:点击在线识别设置保存音频,开启音频回调。

示例请求:将音频保存到 ///0//.pcm

{"accept-audio-data":true,"accept-audio-volume":false,"outfile":"/storage/emulated/0/baiduASR/outfile.pcm"}

其他更新请查看DEMO文件

SDK库文件资源名称资源大小资源描述

.jar

大约 130KB

jar 库

NDK so 库架构

一共5个架构目录:-v7a、arm64-v8a、x86,每个架构有以下5个so库文件。

资源名称资源大小

.so

大约 700K

.dat.so

大约2.2M

.so

大约 400K

.so

关于1.3M

.dnn.so

大约 40K

NDK 所以库被简化

如果要节省安装包大小粤语语音转文字在线翻译,只能使用目录,性能损失小。

如果只需要在线识别功能,只需要.so和.dnn.so这2个so文件。

商务合作联系微信:telegram: @tianmeiapp
    站长邮箱:[email protected]  

原文链接:百度语音开放平台SDK的用户指南——短语音识别、离线自定义命令词识别,转载请注明来源!

0