人工智能中的「语音助手」到底是如何工作的，它的实现运用了哪些技术？

墨香 · 发表于 2023-8-27 12:11:52|来自：湖北

本问题将作为「知识库」栏目的一部分，你的创作将有机会被收录在相关话题的百科简介中，为知友们解答各种十万个是什么。

小川8433651 · 发表于 2023-8-27 12:11:59|来自：湖北

很久之前有一个电视剧叫做《创业时代》，剧中围绕了一款名叫“魔晶”的软件的开发过程发展剧情（这个软件现在还在，只是改版后名字叫MailTime），这个软件的一个功能可以说得上是如今语音助手的一个最核心技术，那就是语音识别技术，而这个技术则叫做ASR（Automatic Speech Recognition），自动语音识别。
ASR技术的目标是识别和转录人类的语音，为了实现这一目标，ASR系统首先捕获声音波形，然后将其转化为一系列的数字信号，接着，这些数字信号会被进一步处理，以识别其中的语音模式，并将其转化为文本。

这里再简单说一下ASR技术的主要组件。首先是声学模型，这是ASR系统的核心部分，负责将声音信号转化为音素或其他语音单位。现代的声学模型通常基于深度神经网络，如卷积神经网络（CNN）或循环神经网络（RNN）。其次就是语言模型，一旦声学模型识别出音素或词片段，语言模型则用于预测下一个词或音素的可能性，这有助于提高ASR的准确性，因为它可以考虑到语言的结构和上下文。最后就是词典或发音词典，这是一个包含词汇及其音素表示的列表，它为声学模型和语言模型提供了一个桥梁，使它们可以协同工作。
在解决了通过语音转化文字的课题后，语音助手最基础的功能就做好了，此时举个例子，当你说“今天天气如何？”时，ASR 系统首先会捕捉到这段声音，然后将其转化为数字信号。接着，这些数字信号会被转化为文本：“今天天气如何？”。
当感知层面上的问题解决后，现在语音助手就需要针对认知层的信息进行解析，这里就需要用到自然语言处理（NLP）技术。NLP的目标是让计算机能够处理和分析大量的自然语言数据。这包括从文本中提取信息、理解文本的意义，以及生成新的文本。
NLP需要处理许多信息，比如说分词，将文本分解为单词或其他有意义的单位。词性标注，为每个单词分配一个词性标签，如名词、动词或形容词。命名实体识别，识别文本中的命名实体，如人名、地点或日期。句法分析，构建句子的结构树，显示单词之间的关系。情感分析，确定文本的情感或情绪，如正面、负面或中性。机器翻译，将文本从一种语言翻译成另一种语言。以及最重要的文本生成，基于给定的输入生成新的文本。
在此之后，此时的语音助手的运行原理就跟ChatGPT相似了，理解了用户的请求后，语音助手会执行相应的任务，这可能涉及到查询数据库、互联网搜索或控制其他设备，在之前的例子中，语音助手可能会查询天气数据库，然后得到今天的天气信息，接着，它需要将这些信息转化为人类可以理解的语言，这也是NLP的一部分。

最后，为了回应用户，语音助手会使用“语音合成”技术将文本转化为语音。这通常是通过预先录制的语音片段或实时生成的语音来实现的，就拿之前使用过的例子局里语音助手可能会回应：“今天是晴天，温度为25°C。”这段回应首先是以文本形式生成的，然后通过语音合成技术转化为声音。
对于实际现实来说，语音助手的用处远比做天气预告强得多，对于个人而言，去自行掌握一个语音助手可以提高自身的效率，如果你是钢铁侠，这就相当于一个自己定制的贾维斯只能助手，无论在生活中还是工作中，都可以用一定的用武之地。
而如果想最大程度上在短时间内提升自己对于语音智能学习的掌握，那选择一门课程去学习无疑是最有效率的方式，在知乎这个平台上就已经有相对应的课程可以去学习。就比如之前知乎开课的「知乎知学堂」，最近正在和「AGI课堂」联动，推出了【程序员的AI大模型进阶之旅】公开课，一共2天的课程，里面有业内技术大佬全面解读目前的机器学习技术以及应用，可以提升对于模型的认知和掌握，更快速的了解这门工具。

最主要的是公开课是完全免费的，我上面的链接就是公开课的链接，不需要钱就可以直接学习，其中最主要的还是AI模型大礼包，能有一个自主训练的语音助手，可以优先实验起来。
在抛开明面上的技术后，其实不难发现语音助手背后也有深度学习与神经网络的影子，现代的ASR和NLP系统大多基于深度学习，特别是循环神经网络（RNN）和长短时记忆网络（LSTM），这些网络可以处理序列数据，如语音或文本，并在大量数据上进行训练，从而达到高准确率。
无独有偶，大数据也是语音助手的一个关键技术，语音助手的准确性在很大程度上依赖于大量的训练数据，这些数据来源于用户与助手的互动，以及其他开放数据源。同时多模态学习的存在也一样重要，其提供的信息可以更好地理解用户的需求，一些高级的语音助手还结合了其他传感器，如摄像头或运动传感器，进行多模态学习。
作为一个在逐渐迭代更新的技术，语音助手背后的构造是复杂而精妙的，涉及多个领域的交叉和融合，从“听懂”到“回应”，每一个步骤都是基于深入的研究和大量的数据，随着技术的进步，我们可以期待未来的语音助手将更加智能、准确和自然。
以上。

liujun999999 · 发表于 2023-8-27 12:12:05|来自：湖北

人工智能中的「语音助手」是一种可以通过语音输入和语音输出，为用户提供各种服务的智能软件。它的工作原理基于语音识别、自然语言处理和语音合成等技术。
1.语音识别是将语音转化成文本的过程，通过对语音进行分析，识别出语音中的音素、词汇、语法等信息，最终将语音转化成可处理的文本格式。
2.自然语言处理是将自然语言转化成计算机可处理的形式的过程，通过对文本进行分析，识别出文本中的意图、命令、问题等信息，提供相应的服务和回答。
3.语音合成是将文字转化成语音的过程，通过对计算机输出的文本进行分析和转化，提供口头服务和回答。
它的实现运用了信号处理、模式识别、文本分析、信息提取、语言模型、语音信号处理、音色合成等多种技术。

顺便给大家安利几个语音识别的工具！
1.录音转文字助手

这是个智能录音转文字软件，可以实时转写，也可以导入音频进行转文字。操作简单，识别迅速，准确率高。
还支持视频转文字、文字/视频/图片转语音、翻译、录音提词、变声、音频转换、音频剪辑等。

选择【录音实时转写】或【导入外部音频】功能，可以选择语言，直接实时录音后转文字，也可以添加音频，点击【转文字】。
选择转换的语言，有多种中文方言和外国语言可以选。点击【确认】，很快就可以看到转换好的文本，转换结果可以翻译、复制、分享。

2.网易见外

这是一个音视频转写的在线网站，可以做视频翻译、音频转写、文档翻译等。如果想把音频文件转为文本，可以用它的【语音转写】功能。
打开网站，登录后点击【新建项目】，选择【语音转写】功能；

导入音频后，可以选择语言和输出类型，然后点击【提交】，处理好后点击下载就可以啦~

3.阿里云

这是阿里巴巴的云计算服务平台，我们在上方功能栏中点击【产品】，然后选择人工智能与机器学习--智能语音交互--录音文件识别功能，就可以把音频文件转为文本。
可以在【产品体验】里操作，上传mp3等多种格式的音频，音频文件要小于5MB。上传音频后，点击【开始识别】，就可以看到识别结果啦。

4.百度AI开放平台

在平台的【语音技术】中选择音频文件转写功能，可以将批量上传的音频文件识别为文字，12小时内返回识别结果。
适合录音质检、会议内容总结、音频内容分析等场景。支持普通话和略带口音的中文识别，英文识别。

以上就是今天的分享啦，希望可以帮助到大家~如果还有其他好用的工具也可以评论告诉我哦~
觉得内容不错的话就点个赞支持一下啦！欢迎大家关注 @协力办公，我会多多分享一些有趣优质的内容！

乌拉乌拉 · 发表于 2023-8-27 12:12:52|来自：湖北

一、核心技术

智能语音技术涉及多类型学科，其核心技术包括语音识别、声纹识别、自然语言处理、语音合成、语音去燥等关键技术。
1 语音识别

语音识别技术也被称为自然语言识别，目的就是将人类的语音中的词汇内容转换为计算机可读的输入。我国的语音识别研究始于1958年，由中国科学院声学所利用电子管电路识别10个元音。直至1973年才由中国科学院声学所开始计算机语音识别。由于当时条件的限制，中国的语音识别研究工作一直处于缓慢发展的阶段。进入80年代以后，随着计算机应用技术在中国逐渐普及和应用以及数字信号技术的进一步发展，国内许多单位具备了研究语音技术的基本条件。与此同时，国际上语音识别技术在经过了多年的沉寂之后重又成为研究的热点，发展迅速。就在这种形式下，国内许多单位纷纷投入到这项研究工作中去。语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合，可以构建出更加复杂的应用，例如语音到语音的翻译。部分摘录自《智能控制在语音识别中的应用》。
2 声纹识别

声纹识别就是生物识别技术的一种，也称为说话人识别，就是通过声音识别说话的人。声纹识别就是把声信号转换成电信号，再由计算机进行识别。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，每个人的声纹就好比是每个人的指纹，都有很大的差异。因此在一般情况下，人们仍能区别不同的人的声音或判断是否是同一人的声音。声纹识别也是具有一些缺点的，比如同一个人的声音有易变性，易受身体状况或者是外部环境的影响。比如不同的情绪，比如是感冒生病都是会影响的。声纹识别可以应用的范围很宽，可以说声纹识别几乎可以应用到人们日常生活的各个角落。比如信息领域、公安司法、军队和国防等等。
3 自然语言处理

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言NLP的两大核心任务是NLU和NLG。NLU是自然语言理解，就是希望机器像人一样具备正常人的语言理解能力，由于自然语言在理解上有很多难点，所以NLU至今远远不如人类的表现；NLG是自然语言生成，是为了跨越人类和机器之间的沟通鸿沟，将非语言格式的数据转换成人类可以理解的语言格式。
4 语音合成

语音合成是通过机械的、电子的方法产生人造语音的技术。传统的语音合成系统通常包括前端和后端两个模块。前端模块主要是对输入文本进行分析，提取后端模块所需要的语言学信息，对于中文合成系统而言，前端模块一般包含文本正则化、分词、词性预测、多音字消歧、韵律预测等子模块。后端模块根据前端分析结果，通过一定的方法生成语音波形，后端系统一般分为基于统计参数建模的语音合成(或称参数合成)以及基于单元挑选和波形拼接的语音合成。
5 语音去噪

语音去噪又被称为语音增强，主要是针对于有人声的音频进行处理，目的是去除那些背景噪声，增强音频中人声的可懂性。其应用范围很广，可以用于人与人之间的语音通讯，也可以用于很多语音任务的预处理。
二、应用场景

1 智能家居

在智能家居方面，AI语音技术使我们的智能家电越来越好用。现在的智能家电能将“AI语音+大数据+深度学习”结合起来，让家电产品能听能说能看，了解用户需要什么，从而让使用户脱离手机、遥控器。能直接与机器进行听、说、看的自然交互，让智能家电更具有人性化。这种AI语音智能技术还为生活娱乐产品的应用操作带来了极大的便利。
目前，智能音箱作为所有智能家居交互的入口，扮演着一个重要的角色，除了常规的日程设置、音乐播放、天气等信息查询，智能音箱还可以控制灯光、空调、电视、窗帘等。还有现在有部分电视内嵌了声纹识别技术，电视会根据不同的音色识别到不同的角色（如：男性、女性、儿童)，从而提供个性化视觉及内容推送服务。用户想看电影但不知道看什么，对电视说“我想看电影”，那么电视会根据识别到的人不同，而显示推荐出不同的内容，并且能控制非注册在系统中的人员不能操控。（部分摘录自https://baike.baidu.com/tashuo/browse/content?id=f60e30109b94efe8b2a48b32）

2 智能出行

在智能出行方面，AI语音技术也是有很大的用处，而且在车载领域存在刚需。从最早的语音导航，到如今的车载语音控制系统，AI语音交互提供了包括车辆控制、社交以及娱乐等多种全新的交互方式，让驾驶员的注意力不再集中在各种繁杂的设置以及按钮上，在提升驾驶体验的同时能够在一定程度上增强行车的安全性。与传统车载系统通过按键或者屏幕操控不同，多模态融合检测、智能语音交互、多屏互动手势操作等一系列技术，将成为下一代智能座舱的标配。由于车内环境相对稳定，语音识别率高，因此座舱内是部署语音交互的极佳落地场景。

3 智能教育

在智能教育方面，AI语音技术可以作为课堂质量辅助和线上虚拟两部分。课堂质量辅助通过融合语音、视觉及文字技术辅助教师授课，实现实时字幕转录、重点内容快速定位、课堂数据分析等。尤其是新冠疫情以来，线上教学的需求量越来越大，基于AI语音交互的虚拟教师结合VR技术，可以摆脱教师人数的限制，一对一授课，并进行精准分析，提升学生学习的效果。语音测评和人机对话技术结合语义技术应用到普通话、古诗词及外语教学中，可以快速纠正发音韵律及语法错误，并且逐渐被应用到考试场景中。
4 智能医疗

在智能医疗方面，AI语音技术帮助医院和医疗机构提高了医疗服务的质量。新冠疫情、经济增长放缓、竞争加剧等多重挑战下，企业加速应用人工智能进行智能化建设，但仍面临诸多挑战。之前很多医院初期的随访工作是通过电话随访，人工坐席外呼工作量大，导致随访工作流于形式，随访流程繁杂，医生参与率低。而语音对话机器人的出现，非常适合解决医疗市场的长期低效率问题，在降低成本、减少医护人员时间负担的同时，能为患者带来不一样的体验提升。过去，传统的随访都要医护人员挨个拨打病人的电话询问患者的术后状况，并做记录。比如，医院日间手术平均每天出院病人在120人次以上，而每位病人一般在术后24-48小时要进行一次随访，就意味着医务人员每天要花9-12个小时用于电话随访，这给医院带来了巨大的随访工作量，而AI语音随访可以做到每天无间断、全覆盖随访，一天内可完成400-1000人次的随访工作，极大的提高了随访的工作量。数据摘录自《人工智能语音外呼系统在医学的运用》。
5 华为智能语音助手

智能语音助手可根据客户需求构建支持语音交互能力，且具备知识库、任务型对话、多轮对话、表格问答、自动文本生成、多模态等多种对话机器人能力的AI助手，赋能不同行业客户。产品具有很多优势，满足客户为客户量身定制，满足客户需求量身定制智能语音机器人；使用业界领先的自然语言算法，理解大量知识技术能力十分强；打通语音交互能力，一个接口搞定语音识别和对话能力；应用场景也十分广泛，比如大屏语音助手和应用对话助手。

三、结语

智能语音是人工智能技术的重要组成部分,包括语音识别、语义理解、自然语言处理、语音交互等。当前,人工智能的关键技术均以实现感知智能和认知智能为目标。语音识别、图像识别和机器人视觉、生物识别等目前最热门的领域,主要解决的是感知智能的需求,就是使得人工智能能够感知周围的世界,能够“听见”或者“看到”。到现在为止，智能AI语音应用领域广泛为我们的生活带来了很多的好处。随着科技的发展，智能AI语音技术也越来越成熟，相信在未来智能AI会越来越强。

本文分享自华为云社区《智能AI语音技术的高水平应用》，作者：静Yu。

点击关注，第一时间了解华为云新鲜技术~

dinying · 发表于 2023-8-27 12:13:15|来自：湖北

先谈什么是语音助手吧，首先我们定义的助手这个单词，大概是能辅助你完成一些私人或者工作上的事，最直接的就是订个闹钟，问个天气。然后查个什么信息什么的。如果你想像成贾维斯那样，可能是真的想多了。
语音助手，顾名思义，就是通过语音交互来完成指令的助手了。
那么它首先肯定是用了完整的语音技术，也就是TTS与STT。随意深度学习的发展，这一块基本上也是用深度学习的技术来做了。
再然后呢，完成整个实际工作的核，这个可能有点儿麻烦，或者说超级麻烦。因为现在并没有一个特别合适的解决问题的方案。通常是NLP+知识图谱来做的。
然后针对特定的功能，做一些特殊化的操作。

xiaozao · 发表于 2023-8-27 12:13:44|来自：湖北

语音助手的实现，大概分为以下几个流程：

语音唤醒；
语音识别；
语义理解；
语义意图分析；
查询相关服务CP/SP；

以一个例子来说明吧，比如用户说“Hi siri”， “天气怎么样“。

&#34;Hi siri&#34; ，这是一个唤醒词，通过预先采集的唤醒预料来做训练，然后那用户的语音数据来匹配，看这个语音数据是不是一个唤醒词；
用户说了“天气怎么样”，手机上录音后，用音频流数据做语音识别（ASR），得到一个文本内容“天气怎么样”；
拿到上一步的“天气怎么样”的文本内容，来做语义理解（NLP）；
从语义理解的结果中，解析出来用户的意图是打算查询天气；（该过程可以和上一步一起处理）
然后去查找天气相关的服务（如和风天气什么的），得到天气的详情，然后把天气返回给用户。

以上，就是简单的语音助手的主要逻辑。
实际应用中每一个过程都比较复杂，都是一门专门的学问。

[其他] 人工智能中的「语音助手」到底是如何工作的，它的实现运用了哪些技术？

快速回帖

关于楼主

最新悬赏

交流分类

常用

技术

区块链

十二星座

十二生肖

专属推荐

问答专家