[IT技术] 现在有什么开源的语音识别吗?

[复制链接]
yumen 发表于 2023-10-8 17:39:51|来自:北京 | 显示全部楼层 |阅读模式
离线的语音识别
全部回复5 显示全部楼层
stcshyq 发表于 2023-10-8 17:40:32|来自:北京 | 显示全部楼层
当然有啦!语音识别作为现在最热门的AI项目之一,出现了好多语音转文字的专业软件或工具。也有很多软件推出了语音转文字的相关功能服务,大大地便利了我们的生活。
利用语音识别功能,我们可以轻松地整理会议记录、语音智能输入文字、实现人机交互等,真的很实用欸。
仔仔自己测评了很多软件工具之后,发现下面这些的语音识别功能就很不错,分享给大家~
电脑:

录音转文字工厂

光听名字就知道它是一个专门为语音识别转为文字而生的软件啦。它的语音识别功能非常强大,而且除此之外,还有很多实用的语音功能。



  • 它一次可以上传多个音频进行批量识别并且兼容多种音频格式,不同格式也可以混合上传,效率非常高。



  • 多个音频文件的转换结果可以选择直接合并为一个文档,不需后期手动进行合并。
  • 可以导出为多种文档格式,并且支持多种语言,小语种和地方方言也能轻松识别并翻译。
  • 有多种使用场景可以选择,识别结果更加准确,可以一键复制或直接编辑转写结果。


WPS

我们常用的office软件WPS为了让我们可以更加方便地输出文字,也是有音视频转文字功能的哦。这个功能就在它的“输出转换”-“音视频转文字”中。



  • 它支持上传四种不同格式的音频,并且有包括中英双语在内的多种不同语言选项。
  • 可以选择不同的识别场景进行识别,会得到更加符合场景的文字结果。


网页:

网易见外工作台

喜欢使用在线网站的话,可以试试网易这个集语音识别与机器翻译于一体的智能听译平台。它有很多语音识别相关的功能,比如语音转写、语音翻译等,功能还是挺丰富的。



  • 选择“语音转写”就可以上传音频转为文字了,它支持三种格式的音频。
  • 可以识别中文或英文语音,转写结果可以选择纯文本类型或生成为字幕文件。


RealSpeaker Transcriber

想要识别更多其他的语种的话则可以用这个网站,识别起来同样挺方便的。

  • 它支持多种语言,包括许多比较冷门的语种。
  • 操作十分简单,直接上传音频就可以开始转写了。


手机:

搜狗输入法

在手机上想要识别语音的话也有很多选择,比如我们常用的搜狗输入法。在“AI输入”一栏中就可以录音或导入音频转写文字了。

  • 能够识别中、日、韩、英等多种语言,并且兼容mp3、wav、flac等6种常见的音频格式。


钉钉闪记

经常需要用钉钉的朋友们还可以用钉钉的闪记功能!直接打开等待倒计时结束就能够录音转为文字了。

  • 转文字的结果可以直接导出为文档,方便保存和发送。
  • 可以识别多人语音,最多支持识别8个人声,而且可以识别普通话或英语。


以上都是仔仔觉得不错的语音识别工具哦,希望对大家有帮助~
bye~记得要常来看吴仔仔 @吴收到 呀~收到请回复!
sunnylong 发表于 2023-10-8 17:41:18|来自:北京 | 显示全部楼层
太巧了,俊仔刚好了解一些语音识别工具,语音识别应用广泛,包括语音助手、智能家居、自动驾驶等。话不多说,下面俊仔就把我知道的语音识别工具分享给大家~
手机端:

①录音识别王

这可是专业的语音识别软件,主要提供实时录音转文字和导入音频转文字的功能。

  • 可以实时把录音转换成文字,可以在开会时录下重要内容,结束后整理会议纪要就方便多啦。
  • 也能直接导入音频进行转写,适合转化长时间录音。
  • 能够提供高质量的转换结果,就算有一些含糊不清的内容也能识别出来。
  • 识别语言类型多,除了常见的中英文这些语言,甚至还能转换粤语、山东话、上海话等方言。


用起来也很简单,比如直接导入音频进行转写,软件会很快识别音频内容,没一会就转写成文字了,还支持转换成SRT字幕文件,拿去制作视频字幕也很方便。


②有道云笔记

说到流行的笔记软件,那肯定少不了它,有一个非常实用的语音速记功能。

  • 可以准确地把语音转化成文字,省去了手动输入的繁琐。
  • 支持多种语言,能帮你准确记录各种录音内容。
打开有道云笔记后点“语音速记”,开始讲话,再点“转文字”按钮就能完成语音识别啦。


电脑端:

①搜狗输入法

超多人用的输入法工具,它的语音输入功能也非常实用。

  • 具备高准确性,支持多种语言的识别和输入。
  • 可以在语音输入过程中即时看到转写的结果,并进行实时的编辑和修改
打开搜狗输入法,在工具箱里面找到“语音输入”这个功能,输入想要识别的语音内容即可转写文字。


②微软小娜

微软公司发布的一款智能语音助手,被广泛应用于智能设备和操作系统中。

  • 无论是在正常交流还是嘈杂环境中,都能准确地识别语音指令,提供快速准确的响应。
  • 支持多种语言的语音识别,覆盖了全球主要语种。
在电脑上打开小娜,按下“麦克风”按钮就能进行语音识别。


网站:

①讯飞开放平台

由科大讯飞公司推出的语音技术开发平台,给大家提供了丰富的语音识别和语音合成功能。

  • 通过大规模的语音数据训练模型,所以有出色的语音识别准确度
  • 无论是单句识别还是长文本识别,都能够快速响应并输出转写结果。
登录讯飞开放平台,选择要识别的语音类型,点击“开始识别”,系统很快就会转写成对应的文字内容,并显示在右侧文框里~


②SpeechTexter

这也是一个在线的语音识别工具,能把大家的语音转换成文本。

  • 支持即时把语音转换成文本,可以直接讲话,不用逐字逐句地输入文本。
  • 界面非常简洁,上手难度不大。
打开网站,设置要识别的语言类型,点击“麦克风”按钮,开始讲话即可开始语音识别。


以上工具推荐大家试一下,可以先收藏再慢慢用~
很高兴在这里给大家安利我的日常爱用工具,有空欢迎到 @社恐打工仔 主页逛逛~那就下次见啦~
longxx888 发表于 2023-10-8 17:41:33|来自:北京 | 显示全部楼层
开源的语音识别系统不仅能帮助开发者快速构建自己的语音识别应用,还能促进学术界和工业界之间的合作和交流。今天yoyo来介绍几个亲测好用的语音识别工具,可以快速将语音转换成文字,一起来看看吧!
一:录音转文字工厂

支持多国语言和中国方言,所以无论你是要转换中文、英文还是粤语、东北话的录音,都不是问题。
支持mp3、wav、m4a等多种音频格式,大家无需担心音频格式不兼容的问题,而且最长的音频时长可以达到3小时,满足大部分的语音识别。


它的识别效果准确,会判断语音的断句处,并配上标点符号,操作起来也很简单,只需上传音频,选择识别语种就可以了,大家可以试一试~


二:WPS

集成文字、表格、幻灯片演示模块,是一个专业实用的学习、办公工具,而且它还新增了音视频转文字功能,功能更加丰富了。
非常智能,可以进行语音识别和语义理解,准确度也非常高。目前仅支持mp3、wav、m4a、acc格式音频文件,兼容程度上还算可以。它可以识别的转写语言也挺多种的,有普通话、英语、粤语、中英结合等等。


三:阿里云

大家一定听说过阿里巴巴,这是阿里巴巴旗下的云计算子公司,在云计算领域超级强大!有很多产品和服务,包括云服务器、数据库、存储、人工智能与机器学习等等,其中的人工智能与机器学习就包含了录音文件识别功能。
这个功能分多种规格,如果你只想体验的话,功能丰富程度比较低,只支持普通话和英语,且音频格式只要mp3和wav,想体验更好的话需要开通服务。


四:腾讯云

腾讯旗下的云计算服务提供商,他们在云计算领域也是非常厉害的!同样具备许多数据服务,包括语音识别功能,这个功能可以用来检查录音质量、实时转写、音频转写等多种场景,已经接入到微信里了。
它的功能体验支持普通话、英语、普粤英混合检测,同时还有说话人分离这个智能功能,非常智能,支持的文件格式为mp3、wav、m4a、mp4、opus,相对丰富一点。


这些工具的使用方法都比较简单,而且识别效果挺不错的,大家可以试试看!
翻翻百宝箱又是一个宝,更多职场生活的技巧我会经常分享出来给大家~等我 @职场百宝箱!
怡怡(涵韵) 发表于 2023-10-8 17:42:10|来自:北京 | 显示全部楼层
还蛮多的呢!为了能获取到一个准确率较高的语音识别工具,我也是测试了不少的软件。现在就将亲测好用的四款分享给你,快往下看看有没有适合你的一款吧~
一、手机端软件
1.录音转文字助手
语音识别其实就是一个录音转文字的过程,而它刚好就是我体验后觉得在这个领域内做得比较出色的软件,既能录音实时转换,又能直接导入外部音频来操作。
而且还内置了智能降噪的工具,就算外界环境有点嘈杂,只要开启了这个功能,就不用担心识别的精度,保证做到准确无误哦~


对于我这种有口音的人而言,它绝对是“救星”。之所以这么说,是因为它除了基本的普通话识别外,还提供了四川话、粤语等中文方言,十分贴心。
当然,外文口语好的小伙伴也是可以直接在这里录制语言转写,毕竟它也能支持不少国外语种。特别是遇到要搜寻外语含义,输入法又打不出文本时,就很是受用了!


2.搜狗输入法
桌面这款输入工具,除了要文字输入的时候会用到它,其他时间几乎就是放角落积灰了。其实你只要进入它的AI输入界面,还是可以发现不少实用小功能的。
比方说录音转文字,能支持直接录音转写以及导入外部音频转写两种方式。无论选择哪一个,处理的效率都是一样高的!
简单的普通话识别我们不说,重点是连英语等国家语言,以及粤语等方言,都同样能轻松识别转换哦~


二、电脑端软件
1.腾讯云语音识别
腾讯出品的一个语音识别平台,具有高准确性、多场景适用等特点。我测试了多次后,发现基本上每一次的识别准确性都蛮高的,真的是一个不错的智能文书助手。
无论是普通话、英语,还是粤语,都能得到精准的识别结果。并且可以在我们说话的同时进行实时转换,很是给力!
而且能适用的场景也非常广泛,像会议记录、语音笔记、语音搜索引擎等,都常借助这个平台来实现语音识别操作。


2.网易见外工作台
最后分享的是一个在线协同办公网站来着,可以进行视频、语音两种转写模式,随进随用,操作起来非常方便!
虽然没办法直接录音转写,但是可以支持导入mp3格式的音频哦~并且提供了中文、英文两种文件语言可以选择,就算是国外朋友发的语音也不用担心无法识别。
还允许自由选择文本或者字幕的出稿类型呢!只要确保识别内容无误了,就可以将文字输出啦,省时又省力。


话不多说啦~有用的记得要码住,也可以关注一下 @银河君 主页下次不迷路
qqsweb 发表于 2023-10-8 17:42:15|来自:北京 | 显示全部楼层
开源且离线可用的,那当然是现在最火的OpenAI家的whisper啊,在安装后下载模型文件后就可以直接离线使用,即可以用whisper命令行调用,也可以使用Python调用。这个开源离线可用的东西,有国外已经部署在树莓派上,实现了离线的智能家具语音识别控制。
https://github.com/openai/whisper安装

使用以下指令:
  1. pip install -U openai-whisper
复制代码
或者使用以下指令从源码安装最新版
  1. pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git
复制代码
另外需要安装ffmpeg,不同系统参考不同方式
  1. # on Ubuntu or Debian
  2. sudo apt update && sudo apt install ffmpeg
  3. # on Arch Linux
  4. sudo pacman -S ffmpeg
  5. # on MacOS using Homebrew (https://brew.sh/)
  6. brew install ffmpeg
  7. # on Windows using Chocolatey (https://chocolatey.org/)
  8. choco install ffmpeg
  9. # on Windows using Scoop (https://scoop.sh/)
  10. scoop install ffmpeg
复制代码
模型说明

有五种模型大小可供选择,其中除了large模型外还提供了只支持英文的版本。模型越小占用显存越少,速度也更快,但精度也更低,所以在使用时需要自己在速度和准确度之间权衡。以下是可用模型的名称、近似内存需求和相对速度。
SizeParametersEnglish-only modelMultilingual modelRequired VRAMRelative speed
tiny39 Mtiny.entiny~1 GB~32x
base74 Mbase.enbase~1 GB~16x
small244 Msmall.ensmall~2 GB~6x
medium769 Mmedium.enmedium~5 GB~2x
large1550 MN/Alarge~10 GB1x
英语模型中的.en模型(仅适用于英语应用程序)往往表现更好,特别是对于tiny.enbase.en模型。
Whisper的表现在不同语言下会有很大差异。下图展示了使用large-v2模型对Fleurs数据集进行的WER(词误率)语言拆解。数值越小,表示表现越好。


简单的说,目前whisper最擅长的6种语言是西班牙语、意大利语、英语、葡萄牙语、德语和日语。中文的WER达到14.7,处于中等水平,所以表现不是那么好,但可用,后面会测试。
用法

直接使用whisper指令识别音频和视频文件为文本,如:
  1. whisper video.mp4
复制代码
这里需要重点说明的是,默认会生成5个文件,文件名和你的源文件一样,但扩展名分别是:.json、.srt、.tsv、.txt、.vtt。除了普通文本,也可以直接生成电影字幕,还可以调json格式做开发处理。
前面介绍了whisper有多种模型,默认使用的是small模型,占用显存少,识别速度快,但准确率没大模型高,以下--model medium命令将使用medium模型转录音频文件中的语音:
  1. whisper audio.flac audio.mp3 audio.wav --model medium
复制代码
默认设置(选用小型模型)在转录英语时表现良好。如果要转录包含非英语言的音频文件,则可以使用--language选项指定语言,当然也可以不指定语言,模型可以做到自动识别
  1. whisper japanese.wav --language Japanese
复制代码
添加--task translate选项将把语音翻译成英语,这在需要为非英文电影生成英文字幕的场景非常方便:
  1. whisper chinese.mp4 --language Chinese --task translate
复制代码
运行以下命令查看所有可用选项:
  1. whisper --help
复制代码
除了使用whisper指令,也可以使用python开发使用,这很方便,但这里不多做介绍,以下是Python示例:
  1. import whisper
  2. model = whisper.load_model("base")
  3. result = model.transcribe("audio.mp3")
  4. print(result["text"])
复制代码
使用体验

安装whisper后,可以根据以上说明直接命令行执行,会自动下载指定的模型:


这里我是转换一个视频,会自动生成字幕格式的,使用非常方便:


除了直接识别语音生成文字和视频字幕,还可以直接转换中文为英文:


直接把中文视频生成英文字幕:

补充:模型只自带了所有语言转英文的能力,那如果需要把英文翻译成中文怎么办?可以利用chatGPT实现,最简单的思路:1. 直接用whisper生成英文字幕,2. 把字幕文件发给chatGPT让它翻译,注意保持格式不变。这样就可以生成你需要的其它语言的字幕了,而且因为whisper识别英文能力很强,翻译出来的质量还很高。
总之,超级方便,虽然识别有一些不准确,但已解决了90%的工作量。
  1. WEBVTT
  2. 00:00.000 --> 00:03.600
  3. 大家好,首先很高興大家來到這堂課
  4. 00:03.600 --> 00:10.200
  5. 這堂課的主要內容是希望讓各位可以在這堂課結束的時候不只快速的掌握ChatGPT
  6. 00:10.200 --> 00:14.200
  7. 也能對如何使用AI提升自己在工作上的生產力
  8. 00:14.200 --> 00:19.200
  9. 有初步的了解,讓您可以在短時間內從初學者蛻變為大師
  10. 00:19.900 --> 00:22.200
  11. 那麼本次課程的大綱如下
  12. 00:22.200 --> 00:25.400
  13. 一開始我們會先介紹ChatGPT是什麼
  14. 00:25.400 --> 00:28.000
  15. 接著講述ChatGPT的基本操作
  16. 00:28.800 --> 00:32.600
  17. 在使用的部分會告訴各位ChatGPT的Chrome插件
  18. 00:32.600 --> 00:37.000
  19. 外掛程式以及如何繞過ChatGPT限制問出想要的答案
  20. 00:37.000 --> 00:41.000
  21. 並且如何正確使用提示詞,以問出對的問題
  22. 00:41.800 --> 00:45.400
  23. 更會進一步介紹ChatGPT在工作上的應用
  24. 00:45.400 --> 00:47.800
  25. 以及教各位如何避開檢測
  26. 00:47.800 --> 00:52.000
  27. 接著和各位分享使用ChatGPT獲利的一些常見方法
  28. 00:52.800 --> 00:55.800
  29. 最後會提供使用的AI工具給各位
  30. 00:55.800 --> 00:58.600
  31. 以及講述更進階的ChatGPT用法
复制代码
以上是自动生成的字幕文件,对有问题的部分自动编辑即可,特别说明的是,好像whisper会自动根据用户的语言习惯来判断生成简体中文还是繁体中文,这个视频是从youtube上下载的台湾网友制作的,生成的是繁体中文,我也测试过国内的视频,生成的是简体中文。当然,如果的确需要简体但被识别为繁体了,处理起来也很简单,直接使用word自带的审阅功能一键转换就行。


最后,做一个不同模型耗时测试,前面说了模型大识别更精确,但也更耗时,这里使用默认的small模型和指定的medium模型对比,转换一个1小时20分钟的视频,结果如下:


small模型耗时26秒13秒,medium模型耗时46分41秒。虽然耗时更长了,但识别结果的确是更准确,下面是内容对比,左边是medium模型识别结果,右边是small模型识别结果:


总体来说,如果你的显存足够,建议用更大的模型,否则直接用默认的small模型就好。
前面说了whisper模型最擅长的几中语言包括英语和日语,测试识别堪称完美:




<hr/>补充一下:有网友问怎么部署到树莓派上,因为whisper模型最小的也得要1G的显存呀,实际上是有大牛在whisper的基础上搞了一个C++版的whisper.cpp,对模型做了优化,需自己编译,可以在各种平台上运行:




如果你是在显卡比较好的电脑上跑还是用官方的,否则可以用这个whisper.cpp,项目地址:
https://github.com/ggerganov/whisper.cpp

快速回帖

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则