商务合作联系微信:telegram: @tianmeiapp
站长邮箱:[email protected]
相关信息:
22.04.16 添加:
➣ 基础版:小米听到声音
目前,MIUI内置了小米听力功能,可以实现普通话或英语的实时识别。但只支持识别,不支持翻译。但它的优点是可以生成对话内容的文本,并导出到小米笔记。
适用场景:
对于听障用户,可以用于需要语音识别的场景,比如看中文视频、日常对话、打电话(小米AI通话也有这个功能)、上网课等。听力正常的同学也可以使用网课辅助录制网课内容。
开启方式:
可以直接在设置里搜索小米听声音。
识别效果:
可以切换识别引擎(讯飞或小爱),速度和准确率都不错。
相比原视频会有半句延迟(0.5到1秒)➣进阶版:小爱-AI字幕
在保留小米文生以上所有功能的前提下,AI字幕还增加了实时外语翻译功能,可以设置中英文字幕单/同时显示,还支持快速导出所有识别的文本到便笺。
适用场景:
除了小米文生的上述功能外,它还可以用来观看无字幕或中文字幕的英文视频。(又名“生肉”)
开启方式:
语音打开或喊出小爱同学,输入或说出“AI字幕”。
识别效果:
与视频内容相比,基本上只有半句的时间差。
原创内容:
目前已知的可以实现异步或近同步字幕的软件很多,能够实时生成双语同步字幕的软件很少。
1.实时字幕技术难点
对于一台机器来说,要从视频生成字幕,需要经过声音读取、神经网络算法(包括音频分析、过滤、转换、调整、校正、输出等)……以及最终显示的过程,每一个一步一步需要一些时间。虽然理论上可以很快提升,但实际需要的时间更长,对神经网络算法的性能也是一个巨大的考验。如果是在线播放或直播,对机器的压力也更大,更容易造成延迟。
例如,视频实时字幕技术的难点如下:
2.现有的字幕方案(PC)
目前,现有的字幕生成方式基本都是在PC端进行的,包括使用机器算法或人工生成字幕文件或翻译现有字幕以满足观看需求,包括传统字幕和新的自动字幕。具体体现为:
① 字幕文件(传统模式,多为人工,人机合作)
② 被抑制的字幕(机器翻译、人工修正)
常见的如鱼子母、元鉴字幕组等,成员各司其职,负责翻译、卷线、纠正、压制等工作。
③机器学习+神经网络算法生成字幕
主要基于AI技术和算法、DNN(深度神经网络技术)、/网络和粗粒度建模单元等,实现机器自动识别。例如:
比如科大讯飞的听力字幕、慧影字幕、字幕网、牛片网等(还没有研究过,这些网站不一定是基于以上技术的,但整体功能基本差不多)
听字幕
(已经停止了。)比如之前有一个up主在B站建立的开源项目“段子翻译器”。当然,这不属于语音识别而是OCR的范畴,但在效果上是差不多的,毕竟都是为了方便观看和理解视频内容。
弹子翻译的部分截图 通常,如果视频语言在支持的语言范围内,作者上传视频一段时间后,服务器会自动识别并生成字幕。用户在播放时实时翻译字幕,直接读取生成的识别字幕并显示出来。显示时有进度条往前跳的感觉;而仔细观察会发现,有时字幕会提前半秒左右说出,这进一步说明系统会预读字幕。.
这也是为什么有些人看视频时觉得字幕很准确,而有些人看到机器转的字幕乱七八糟的原因,因为前者大多是通过人工二次验证纠正的。比如科大讯飞和微软主要面向企业(会议办公室);对于网红博主来说,需要使用普通的延迟和官方语言,所以人气不够高。
直播字幕功能3.开启手机字幕功能
以上方法均在PC端进行。根据离线视频资源,人工识别生成字幕,在本地程序或云端,不会根据正在播放的视频同步生成。(即为用户正在观看的网页生成字幕,以及不带字幕的客户端视频)
实际上,如果听写软件能够对识别出来的文字(如音乐软件的歌词悬浮形式)保持悬浮字幕状态,并在需要时保持在后台运行,理论上可以暂时用作字幕翻录软件。不过,这方面似乎还没有比较完善的软件(甚至是demo)。基本上,它是一个单独的语音收听和翻译工具(语音到文本)。
根据目前可用的资源,结合听写软件(分屏)可能是一种解决方案。
该方法(通常)适用于:
观看无字幕视频、新闻、在线课程;对有听力障碍的人特别有帮助。外语水平一般时,看无字幕电影时;当周围环境不适合播放声音时;当说话者大部分时间都在用无法理解的方言说话时;在线课堂笔记辅助工具;其他需要字幕的场景。
提示:一般来说,它最适合标准语音(中英文)、中慢语速和新闻视频。
软件准备:
特征选择:
两款软件支持多种语言,科大讯飞主要识别普通话及周边几个国家的语言和我国的部分方言,而谷歌的主要识别英语等国际语言。
由于语言种类繁多,这里没有全部测试,只做几个典型的测试看看效果。
效果测试:
上下分屏
左右分屏
1.“讯飞语纪”——普通话识别
2.讯飞宇机 - 汉译英
3.讯飞宇机 - 中文转俄文
4.讯飞宇机 - 英译中
5. () - 英文识别
方案评价:
在识别速度方面,一般会慢一些,原因和上面分析的一样。虽然理论上这个时间差可以更低,但延迟或滞后显示是由网络速度、硬件处理、响应速度、说话者的语音速度(句子分割)等因素造成的。在准确性方面,通用软件在转录该国第一语言(如普通话和标准美式英语)时最为准确。转录的准确性与翻译引擎或相关API(如道翻译等)和调用的相关识别算法有关。. 4.关于小米文生
系统内置小米听力功能(基于讯飞听力和小爱这两款可选识别引擎),主要是为了方便听障人士的无障碍沟通。
可以在这里借。上述的“临时字幕”功能也可以通过分屏实现,普通语速下的分句更加准确。
B站实测效果(有小瑕疵,但大部分还是比较准确的)
但遗憾的是,小米文生(因为产品设计的初衷只是为了日常交流),所以只对标准普通话有很好的识别效果,比较适合看官方视频,比如新闻。
5.总结
其实理论上实现实时字幕是完全可行的,但是由于当前:快速准确的反应(技术)、社会对听障人士的关注(人文关怀)、公共生活场景的需求(市场)等暂时还不够。充分实时翻译字幕,形成了该领域发展的一定程度的瓶颈和动力不足,目前还没有相对普适大众的解决方案,但相信这样的应用很快就会出现。
商务合作联系微信:telegram: @tianmeiapp
站长邮箱:[email protected]
原文链接:小米闻声的实时字幕技术难点及解决办法,转载请注明来源!