语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。
语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,例如语音到语音的翻译。
语音识别系统根据对输入语音的限制加以分类
1.从说话者与识别系统的相关性考虑
可以将识别系统分为3类:(1)特定人语音识别系统:仅考虑对于专人的话音进行识别;(2)非特定人语音系统:识别的语音与人无关,通常要用大量不同人的语音数据库对识别系统进行学习;(3)多人的识别系统:通常能识别一组人的语音,或者成为特定组语音识别系统,该系统仅要求对要识别的那组人的语音进行训练。
2.从说话的方式考虑
也可以将识别系统分为3类:(1)孤立词语音识别系统:孤立词识别系统要求输入每个词后要停顿;(2)连接词语音识别系统:连接词输入系统要求对每个词都清楚发音,一些连音现象开始出现;(3)连续语音识别系统:连续语音输入是自然流利的连续语音输入,大量连音和变音会出现。
3.从识别系统的词汇量大小考虑
也可以将识别系统分为3类:(1)小词汇量语音识别系统。通常包括几十个词的语音识别系统。(2)中等词汇量的语音识别系统。通常包括几百个词到上千个词的识别系统。(3)大词汇量语音识别系统。通常包括几千到几万个词的语音识别系统。随着计算机与数字信号处理器运算能力以及识别系统精度的提高,识别系统根据词汇量大小进行分类也不断进行变化。目前是中等词汇量的识别系统到将来可能就是小词汇量的语音识别系统。这些不同的限制也确定了语音识别系统的困难度。
云蝠智能ASR语音识别功能
一句话识别
对一句话短音频文件进行识别,离线版本支持超过1分钟时长的识别。
实时语音识别
对实时音频流进行识别,达到说完即出文字的效果,适用于实时性要求较高的场景,如语音输入,电话机器人等。
录音文件识别
支持长时长录音识别,离线版本不限制时长,取决于终端设备的内存大小,适用于长语音,实时性要求不高的场景,如智能质检等。
语言支持
暂只支持中文普通话
音频格式
支持wav、pcm等音频格式
音频编码
支持8k、16k的单声道音频流
支持16bit的数据采样精度
音频数据长度
音频流中每个数据包的音频分片为20-200ms
(建议为20的倍数)
云蝠智能ASR语音识别的接入方式
多种集成方式
SDK:终端设备集成
API:服务端调用集成
多种输入方式
WAV、MP3....等
多种采样率
8K、16K
部署方式
公有云调度、本地化部署
云蝠智能ASR语音识别产品优势
支持普通话/中英混合等多语种及方言,海量数据不断更新,语音识别准确率持续提升。
- 高准确的识别率:基于先进的深度学习算法,安静环境下近场语音识别,中文普通话字准确率超过96%。
- 灵活的接入方式:支持不同设备端安卓、iOS系统的SDK接入,同时也支持HTTP协议的API接入。
- 毫秒级低延时识别速度:识别结果响应时间低于300毫秒。快速的系统响应,提升用户交互体验。
- 专业的业务领域:针对8K\16K的呼叫、客服场景,进行大量的业务场景优化。针对呼叫的VAD及降噪进行定位优化。
- 智能文本纠错能力:基于行业文本数据,针对用户输入上下文进行智能纠错,根据用户输入停顿,智能化插入标点符号。
声纹识别:基于声纹能力,实现对发音人进行有效区别。
END-
您可能还想看:
关于云蝠智能 | 让联络更智能高效 云蝠智能致力于成为国内领先的客户联络及质检自动化SAAS。通过自然语义理解的技术优势,为企业提供包括销售线索、智能触达(AI语音呼叫、邮件、短信分发)、电话中继线路及SCRM客户管理、音频及文本质检、语音智能工牌等一系列产品服务。获得前微软副总裁陆奇博士天使轮投资、AMINO丰元资本PreA轮等2轮上千万投资。公司拥有全国呼叫中心资质,软件著作权26项及商标3项。为万科、贝壳找房等诸多大型客户提供整体解决方案。云蝠智能获得了广泛的市场认可,客户涵盖房产家装、电商、教育、企业服务、SAAS互联网等诸多行业。应用场景包含精准营销、客户回访、邀约通知、满意度调查等诸多场景,通过saas及oem+paas两种方案提供服务。企业官网:www.telrobot.top音波智检:check.telrobot.top官方热线:025-66043469 |