dddddno1 发表于 2023-10-6 18:07:58

有哪些语音识别的开源项目?

不知道现在是语音识别技术背后是怎样的处理流程。有些想法,想做与语言无关的语音识别,只是单纯地把语音转化成对应的国际音标,因此不需要语言库之类的东西,有什么好的开源项目吗?我该怎样开始呢?

xjdata 发表于 2023-10-6 18:08:13

现在语音识别技术已经十分成熟啦,不论是中文还是外语,只要录入语音就能识别出其中的内容并转为文字,让我们的工作和学习生活更加方便。
开源项目适合一些对于编程和开发软件有需求的小伙伴。但也有很多小伙伴只想找到一款实用的语音转文字方便我们的日常生活。
放心好啦,我都为大家准备好了,这就分享大家一些语音识别开源项目和软件吧。
一、开源项目

1.Baidu AI开放平台

由百度推出的人工智能服务平台提供了很多的AI智能服务,其中就有语音识别相关的项目。而且该平台提供了该项目的api接口,让软件开发者们可以将这个功能集成到自己的软件中。
它的语音识别效果还是比较不错的,准确性和稳定性都比较好,而且支持识别多种语言。不仅可离线识别语音,也可以实时识别语音。
2.DeepSpeech

这是Mozilla开发的一种开源的语音识别引擎,它识别语音的准确度非常高。这是因为它运用了深度学习的技术,训练了大规模的语音数据集。
它可以识别多种语言及方言,实用性强,运用范围很广。
3.Kaldi

它是一个用C++语言编写的语言识别工具包,旨在提供语言识别研究员使用,可以在Windows和Unix平台上编译。
作为目前最流行的语音识别开源项目之一,它已被众多商用的语言识别系统使用。
二、实用软件

1.录音转文字工厂

语音识别已经成为了我们日常生活中不可或缺的一项功能,能极大地解放我们的双手,让我们在输入文字内容时更加轻松简单。想要将语音内容转为文字的话我们可以使用这个软件。
它的语音功能十分强大,在主页就可以找到“录音转文字”功能。

http://pica.zhimg.com/v2-c1fc5f9ee38f5c0cd254bba3e9232d1d_r.jpg?source=1940ef5c
直接上传想要转为文字的录音文件就可以开始转换了。它支持多种音频格式,不需要进行格式转换。并且有多种转换文字的格式可以选择,可以识别的语言种类也有多种选项。

http://pic1.zhimg.com/v2-a9dfa68963be3e1386694fcc8f5c9ade_r.jpg?source=1940ef5c
2.网易见外工作台

我们也可以使用一些在线平台,比如网易这个智能听译平台。直接在新建项目里面选择“语音转写”就可以上传语音转写为文字了。
它可以转写中文或英文两种语言,转写的结果也是比较准确的。

http://picx.zhimg.com/v2-262352db3b684695bea60c8990f214ed_r.jpg?source=1940ef5c
文章到这里就告一段落,有什么需要修改或者不足之处,欢迎大家评论区批评指点~ @Noah诺亚

wanghuan 发表于 2023-10-6 18:09:12

下面这三个开源语音识别项目,我个人认为还蛮不错的,感兴趣的话可以去试试!
①DeepSpeech

开发这个项目的团队就是开发了火狐浏览器的团队,这个项目使用的是 TensorFlow 机器学习框架,我们可以用它训练自己的语音识别模型,也可以直接用它去将语音转成文字。
它也支持许多编程语言,其中就包含了 Python(3.6)。
②Kaldi

一个用C++编写的开源语音识别项目,支持运行在Windows、macOS 和 Linux三种系统,它通过Python脚本进行了封装。
如果想使用基本的语音转文字功能,是可以通过Python轻易实现的。
③Wav2Letter++

由 Facebook 的 AI 研究团队开发的一个开源的语音识别项目,它是一个机器学习驱动的文本语音转换工具,需要我们先为所描述的语言建立一个模型来训练算法。
顺便推荐几个实用的语音转文字软件及网站,操作都很简单哟~
①录音转文字工厂

专业的语音转写工具,除了语音转写功能外,它也支持文字转语音,也就是我们常说的语音合成。
其“录音转文字”功能支持上传多种格式的语音文件,可轻松实现语音转文字的需求,并且转写得到的文本可输出为TXT、SRT、Word等多种格式,方便应用于不同场景。

http://pic1.zhimg.com/v2-3acf696fcf8760964c3a6db82c3a1157_r.jpg?source=1940ef5c
最特别的是,软件不仅能识别中文、英文等常见语言,还能识别粤语、四川话、上海话、闽南语等各地方言,就算有口音也不影响转写准确率。
完成转写后,还可以对文本内容进行翻译哦~

http://pic1.zhimg.com/v2-71500ad998dd66f809cbb7ca9d60dc3b_r.jpg?source=1940ef5c
②搜狗输入法

这是一款比较老牌的输入法软件,为了方便输入文字,它也有内置的语音识别功能。
打开软件的首页,找到其中的“录音转文字”,即可进行语音识别的操作。

http://pica.zhimg.com/v2-83ca66c5a88fb113e1a9bd39379ac901_r.jpg?source=1940ef5c
此外,软件也支持导入音频转文字的操作。

http://pica.zhimg.com/v2-83c87ffd7b49091dfbacbfa8c185a8f2_r.jpg?source=1940ef5c
③WPS

WPS除了用于文档的查阅编辑外,还拥很多好用的功能,如论文查重、截图取字、图片转文字、全文翻译、音视频转文字等。
使用它的“音视频转文字”功能,导入语音文件,设置转写语言和转写领域,点击“开始转写”按钮即可提取音频中的文字内容,最后保存转写得到的文字文件即可。

http://pic1.zhimg.com/v2-db1457ea50a6a6d3330ad44d4b38d93b_r.jpg?source=1940ef5c
我叫划水,但我不是真的划水,关注我 @本校区划水的玉桂 主页,不再担忧各种软件收费套路,持续分享更多白嫖小妙招~

wwwrxt 发表于 2023-10-6 18:10:08

那可不少,而且这些语音识别工具做得越来越好,识别准确率超高的,下面yoyo就把市场上用户人数多、评分高的语音识别工具分享给大家~
电脑端:

①录音转文字工厂

转文字功能挺丰富的,不仅能把录音转换成文字,连手写、图片、截图、视频都能转换成文字,就问你们厉不厉害!

http://picx.zhimg.com/v2-1b5296e0de510eff4c9a4de184782941_r.jpg?source=1940ef5c
其中录音转文字支持多种音频格式,简单给大家列一下,有MP3、WAV、M4A、AAC等等,非常多样,不用担心不兼容的情况。

http://picx.zhimg.com/v2-b98ffd3e8c424da409717fb608e9c6ea_r.jpg?source=1940ef5c
还能多个音频文件同时转写,而且能识别多门外语,方言也不在话下,你们只管上传语音文件,记得设置识别语言,剩下的交给它就好了。

http://picx.zhimg.com/v2-1f17ca453295c52b9fe5277076917fc1_r.jpg?source=1940ef5c
②WPS

人手一个的办公软件,功能很丰富,除了常用的文档编辑外,还有不少小功能,比如图片工具箱、全文朗读、全文翻译、音视频转文字等等。
音频转文字功能支持部分音频格式,满足大家日常转写需求,可以识别的语种数量还行,有普通话、英语、日语、韩语、河南话、粤语。

http://picx.zhimg.com/v2-491810b32ec0d7e378b226fba31d71da_r.jpg?source=1940ef5c
手机端:

①搜狗输入法

不知道大家用哪个输入法,这款除了输入功能很厉害之外还有AI加持,功能很齐全,有拍照转文字、拍照翻译、录音转文字等智能功能。
录音转文字分两种转换方式,你们可以选择导入音频文件转写,也可以实时录音转写。导入音频的话支持多种音频格式,而且能识别的语种也很多。

http://picx.zhimg.com/v2-6078275feaafa9447429f8105a5a1eda_r.jpg?source=1940ef5c
②有道云笔记

智能笔记,我用了挺久了,一般拿来记日常事件、开会事项等等,一开始我以为只能记文本内容,后来才觉得是我大意了。
除了文本外,还能插入图片、语音,在来不及打字的情况下很实用,随手一拍、一录就行,而且录好的语音还能转写成文字,很方便。

http://picx.zhimg.com/v2-6b8da5f983f98de5cfd6089a37fa7d34_r.jpg?source=1940ef5c
网站:

①网易见外工作台

主打的就是转写服务的在线工作台,有多种转写功能,不管是图片、语音还是视频都能转写,而且还能翻译,如果你们有这两种需求的话可以试试。
语音转写功能只支持MP3、WAV和ACC格式的音频,相对少一点,而且只能识别中英文,不过转写后可以在视频里加上字幕。

http://picx.zhimg.com/v2-d5867fc04a53aafdc9eb6b44bd59cf7a_r.jpg?source=1940ef5c
②腾讯云

云计算服务商,里面有各种智能接口,如果你们想开发软件,实现功能就可以用这些接口,里面有人脸识别、语音识别、图片识别等多种功能。
有实时转写和录音文件转写,都能识别粤语、普通话、英语,而且会根据停顿,智能判断用不用加上标点符号,智能化程度很高。

http://picx.zhimg.com/v2-2fce796f5c4cc362a376897af03da585_r.jpg?source=1940ef5c
今天就分享到这里,大家觉得这些语音识别工具怎么样呢?
翻翻百宝箱又是一个宝,更多职场生活的技巧我会经常分享出来给大家~等我 @职场百宝箱!

南京电信 发表于 2023-10-6 18:11:05

现在很多人越来越了解到,利用语音转为文字可以让码字的过程更加简单快捷,解放双手。于是越来越多的语音识别软件出现在大家的视野中。
不过,现在市面上的语音识别软件良莠不齐。有的不仅操作麻烦不说,还总是容易识别错误或者识别不出,浪费大家的时间。
老白我啊花了一早上的时间费了些心思测评,终于给大家总结出了五款值得使用的语音识别软件。
1.录音识别王

一款专门的音频识别软件,它可以很好的识别音频或视频,并转换为文字内容输出。适用于办公会议、教育培训、新闻媒体等不同的领域的语音识别。
该软件还提供网页转文字、视频转音频、智能配音等多项实用功能,满足各种办公场景。
推荐度:⭐⭐⭐⭐⭐

http://picx.zhimg.com/v2-69c51c3e0ef6bbda80c3692d1f053933_r.jpg?source=1940ef5c
特点:

[*]支持上传多个文件,批量转换为文字,转换速度快且准确
[*]支持多种音频格式及视频格式,有四种文档格式可以选择输出
[*]可识别多种语言,小语种及地方方言也可以识别

http://picx.zhimg.com/v2-138071d845cf3a7d4f85c61977e81db6_r.jpg?source=1940ef5c
2.网易见外工作台

网易的一款多人协作在线办公平台,有多种转文字功能。在新建项目中就可以找到语音转写功能。
推荐度:⭐⭐⭐⭐
特点:

[*]可转换为文本或字幕两种形式
[*]支持中英文两种语言,兼容三种常见格式的音频文件

http://pic1.zhimg.com/v2-f6da92500b3f188bd350a92f14caeb31_r.jpg?source=1940ef5c
3.百度AI开放平台

百度一个开放对话式人工智能系统,它的音频文件转写功能可以识别语音转写为文字。该服务可以识别略带口音的中文,完整服务需购买。
推荐度:⭐⭐⭐
特点:

[*]支持批量识别,多语种识别,采用AI技术识别
[*]文字识别结果支持时间戳,智能在停顿处自动生成标点

http://pic1.zhimg.com/v2-c0fd20dcfdde6b989bcf767d0b59b913_r.jpg?source=1940ef5c
4.搜狗输入法

一款常用的输入法软件,在工具栏中就可以找到“语音输入”。可以直接录音并转写为文字内容。
推荐度:⭐⭐⭐
特点:

[*]可以跨屏输入,在手机上录音并自动转写到电脑中
[*]支持实时录音转写,适合有即时转文字需求的情况,不支持将音频文件转为文字

http://picx.zhimg.com/v2-34efe6ced89bf1e3e7729566b3d89e02_r.jpg?source=1940ef5c
5.Speech to Text Converter

专门用于识别音频的一款小型音频识别软件,上传音频文件并选择语言就可以转为文字。
推荐度:⭐⭐⭐
特点:

[*]占用空间小,专注音频识别功能,界面为全英,比较简洁
[*]有多种语言可选,仅支持上传MP3格式的音频

http://picx.zhimg.com/v2-6485cc387913017c082d658bc2f56c0c_r.jpg?source=1940ef5c
那么今天的分享就到这,喜欢的请给老白点个赞吧!
良心干货整理不易,为了让更多人在职场上不迷茫,我 @职场生存指南 会一直更下去的。

蛋蛋小林 发表于 2023-10-6 18:11:11

推荐一些 HelloGitHub 收录的语音识别类开源项目,希望能有所帮助:
1、nl8590687/ASRT_SpeechRecognition
https://hellogithub.com/repository/f6c20ca6e8e64c778ce04ab833566a9e基于深度学习的中文语音识别系统

2、Baiyuetribe/paper2gui
开源项目 paper2gui 详情面向非编程人员的 AI 应用工具箱,该项目提供了多款免安装下载即用的 AI 工具,功能涵盖语音合成、视频补帧、图像风格转化、目标检测、OCR 识别等方面,让编程小白也能轻松拥有 AI “魔法”。

http://picx.zhimg.com/v2-301caa555dd54edc94c1bacb572c1286_r.jpg?source=1940ef5c
3、wxbool/video-srt-windows
开源项目 video-srt-windows 详情自动识别视频语音生成字幕文件的工具,采用 Go+walk 开发所以仅支持 Windows 系统,原理是请求在线语音转文字的服务,超出免费额度需付费。另外还加入了导出字幕文件和翻译功能。

http://pica.zhimg.com/v2-abd3d2703510b1c5c39ded9af82257f8_r.jpg?source=1940ef5c
4、openai/whisper
开源项目 whisper 详情OpenAI 开源的多语言识别系统,该项目是强大的自动语音识别系统,支持包括中文在内的多种语言识别。尤其是在快语速、口音、背景噪音等场景,依旧表现出色,能够达到极高的准确率。

http://pic1.zhimg.com/v2-3f400209366ee2b5b1a1a56e6199bcab_r.jpg?source=1940ef5c

更多开源项目推荐可以参考 HelloGitHub 每月 28 号定期发布的月刊,附上最新一期月刊:
《HelloGitHub》第 80 期
HelloGitHub想让更多人爱上编程、开源,所以一直在尝试、摸索如何可以帮助到更多的人。目前HelloGitHub 交流群已全面开放,关注HelloGitHub,添加:HelloGitHub为好友入群,可同C、C++、Java、Go、Python、前端、机器学习等各界大佬谈笑风生、切磋技术~ 还有大学生开源群,叫上你的小伙伴一起来探讨开源吧!
页: [1]
查看完整版本: 有哪些语音识别的开源项目?