楼主提到的人工智能最热门的领域产品,有机器人和人脸识别。
其实一直以来,人工智能领域应用最成熟的产品之一就是智能语音。
一:起步最早的人工智能领域
智能语音技术起步非常早,起步于上世纪50年代,1970年至1990年左右,我们都熟知的开复老师就是这个领域的世界级专家,相关智能语音的底层技术在这个阶段也已经非常成熟,并且出现了很成功的商业化产品。
我们国家的讯飞,捷通华声等也是在这个时期开始探索,并且把智能语音中文化作为主要突破方向。
中文的特点以及庞杂的各地方言语音也是一个巨大的挑战。经过十多年的科研攻关,目前中文智能语音已经是一个成熟产业。我们可以在各智能语音公司和阿里,腾讯,百度,华为云服务应用上,轻松的使用相关服务。
智能语音产品的应用,是搭建人机对话的新渠道,实现人机语音交流。
主要借助三大核心技术ASR(语音识别)、TTS(语音合成)、NLP(自然语言处理)
语音识别、语音合成、语义理解技术的应用的简图
语音识别涉及多个步骤,如特征提取、声学模型训练和解码等
语音合成要在大量语音语料基础上进行声音特征提取和训练,进行语言自然韵律,语速、语调的调整。
语义理解则是模拟自然语言处理,对词性、意图进行识别,并以自然语言方式进行输出。
语音识别、语音合成、语义理解技术的应用的简图
二:大语言模型带来的变革:
在人工智能发展的每个阶段,新技术的应用,往往都会投注到智能语音领域,并带动产品成熟和发展:
比如深度神经网络(DNN)和循环神经网络(RNN)的出现和在智能语音领域的应用,使得语音识别在准确性和性能方面取得了重大突破。
深度学习模型能够从大量数据中学习特征和模式,并能够自动提取高级抽象特征,从而改善了语音识别的效果。
大语言模型的到来,同样给予智能语音领域以巨大的技术推动力。
首先变革发生在工具侧,目前从业者开始采用Copilot、CodeGeeX等工具进行伴随编程、代码自动化、软件测试等工作,简化和释放coding工作量。
新入门的朋友也可以多看看相关的书籍和课程,
如‘知乎知学堂’推出的免费体验课《程序员的AI大模型进阶之旅》
就是一套很好的课程,从底层原理到实战技能,对当红的LangChain框架应用,Fine-Tuning专属模型微调都有深入浅出的讲解。帮助大家紧紧抓住风口
我们看到大模型厂商,如OpenAI、Meta、Google,都推出了智能语音的新应用。
OpenAI开源的Whisper对音视频文件的语音识别率很高,效果颇佳。
这些智能语音的应用,结合大语言模型的能力,一方面提升了智能语音能力,可以构建更加复杂和精准的语音,语义模型。
另一方面,就是大大降低了相关技术落地的难度。以往需要通过对大量技术的理解,对算法的熟练掌握,对语音模型的调用和调优,通过与大语言模型的结合,变得更加简单,这也将极大的催生智能语音应用的快速发展。
在智能语音应用落地方向上,国内的单独NLP领域缺乏领军企业。因为以往NLP技术的成熟和产品的稳定性考虑,对于大语言模型的改造,目前更多还是从工具层面的微改进为主,但所有人都意识到,从循环神经网络(Recurrent Neural Network, RNN)、长短时记忆网络(Long Short-Term Memory, LSTM)和注意力机制(Attention Mechanism),一路发展而来,到大语言模型的智能涌现、逻辑链推理、多模态AIGC,甚至AGI通用性人工智能,必将给智能语音核心技术带来巨大的变革和商业机会。
所以目前阶段的智能语音领域,可谓是暴风雨来临的前夜。
三:智能语音应用落地:
在科幻小说电影中,和机器人无障碍顺畅的交流,就是智能语音的终极应用形态。
但目前阶段,我们能看到的人工智能领域智能语音产品是什么样的?
智能助理:
手机端的Siri,小冰等,带来了智能助理类应用的最佳范例,目前此类应用应该还是初始化阶段,随着智能化程度的进一步提高,并且可以通过智能网络连接更多的设备,智能助理会成为一个特有的控制入口。
AIOT语音硬件产品:
硬件类产品,如国内方兴未艾的智能音箱,是最受C端认可的智能语音设备。当然,随着各厂商大语言模型的成熟,我们更加期待拥有更高智能核心,有更强的语义理解和交互能力的音箱类产品落地,我们也深信,基于成熟的市场应用和基数,这里也将是智能语音的主流市场之一。
智能教育:
教育类的产品和设备,无论是基于软件还是硬件,搭配教育类资源,已经越来越快速的在替代传统的教育培训模式,国内巨头在此市场重兵投入,共同争夺这一块巨大的市场。对于内容限定,交互体验要求不是很高的教育方服务体验,智能语音的应用门槛并不高,但是产品的黏性和付费意向却十分强烈。
智能客服:
智能客服一直是智能语音的主战场,新技术的试验田。国内智能客服的技术能力和应用已经非常成熟。相关产品很多。虽然市场总量较小,且专业化程度较高,但是属于2B领域刚需产品,具有很好的发展前景。
数字人直播:
数字人及相关领域应用,才是大语言模型到来后,智能语音的热点发展方向之一。国内拥有最庞大的直播市场规模,同样的,大语言模型的多模态能力,智能化程度,也极大的加快了前几年数字人缓慢的商业化落地节奏,2022年起,更多的数字人直播产品及应用,雨后春笋一般建立,可以期待在未来一小段时间,这项应用将对直播行业带来深刻的变革。
数字声音产业:
最后是泛娱乐和商业化的数字声音产业,如有声书、配音、绘本、数字音乐,大语言模型的声音、歌曲生成能力,也将给数字声音产品带来更具竞争力的产品。
以上应用范围内的特色化产品,都将随着大语言模型技术风暴的来临而起飞。 |