科技问答:科大讯飞自研星火认知大模型发布，能力如何？有哪些技术亮点？-今日问答

海默子 发表于 2023-11-2 05:21:48

科大讯飞自研星火认知大模型发布，能力如何？有哪些技术亮点？

讯飞星火认知大模型现场实测七大核心能力，发布四大行业应用成果 - 知乎

之海发表于 2023-11-2 05:22:27

谢邀，知乎的小伙伴们大家好，作为科大讯飞公关负责人、一名讯飞人，主要参与了讯飞星火大模型从研发到发布的重要历程，感谢大家对于讯飞和星火认知大模型的关注。今年上半年，在ChatGPT为代表产品掀起的浪潮下，国内的AI大模型赛道形成了百花齐放、百家争鸣的局面，4月20日，我们讯飞也正式对外宣布了“星火认知大模型”发布会的消息，目前大家可以在官网（https://xinghuo.xfyun.cn）申请优先体验权益。今天我以一个内部参与者的角色，与大家聊聊这款产品。
讯飞星火认知大模型，是基于深度学习的、以中文为核心的自然语言处理模型，具备在跨领域多任务上类人的理解和生成能力，可实现基于自然对话方式的用户需求理解与任务执行，用一句话来概括就是“只需一个指令便可以懂你所言、答你所问、创你所需、解你所难、学你所教。”
在讯飞有一句话叫“技术顶天，应用立地”，先从技术积累上来看，2011年科大讯飞便承建了语音及语言信息处理国家工程实验室，提出让机器像人一样能听会说，这一次认知大模型本质上是一次对话式的通用智慧的涌现，语音和语言的核心能力是一个基础条件。在国家平台和讯飞超脑计划的支撑下，过去几年讯飞在认知智能领域取得了一系列全球领先的成果。”2017年，科大讯飞承建认知智能国家重点实验室，也就是从这一年起，科大讯飞不仅让机器在全球首次通过了国家职业医师资格考试、超过了96.3%参加考试的医生，并且在SQuAD机器阅读理解中全球首次超过人类平均水平，刚刚过去的2022年在OpenBookQA 科学知识推理中，单模型也超过人类平均水平。可以说多年来科大讯飞已在认知智能领域有了丰富的储备和积累。在算力方面， 2009年我们便开始布局算力基础设施建设，目前已建成4城7中心深度学习计算平台；技术上，讯飞承建了认知智能全国重点实验室，这是2022年国家重点实验室重组后的首批20个国家标杆实验室中唯一一家；人才上，讯飞目前已经拥有超过200人的大模型核心研究团队，其中有数位是《麻省理工科技评论》“35岁以下科技创新35人”榜单中顶尖的科学家。
其次，在应用上，星火认知大模型的整体布局为“1+N”体系。其中，“1”是通用认知智能大模型算法研发及高效训练底座平台，也就是大家获得内测权益后进入的官网界面“SparkDesk”；“N”则是大模型应用于教育、医疗、人机交互、办公等多个行业领域的专用场景。此外我们还会以API形式为企业提供服务，让各类企业可以根据自己的需求个性化开发，实现产品创新。在5月6日的讯飞星火大模型发布会上，科大讯飞董事长刘庆峰也表示，从ChatGPT关注的48个主要任务方向和讯飞开放平台上400多万开发者团队的需求分析，通用人工智能应当具备七大维度能力，包括文本生成、语言理解，知识问答、逻辑推理、数学能力、代码能力、多模态能力等。
那么针对讯飞星火认知大模型支持的以上七大维度的能力，下面为大家展示一些我的体验示例：
一、文本生成：王家卫会怎么描写《我在超市买香皂》？星火的回答“王家味儿”还是很浓的。

http://pic1.zhimg.com/v2-691edc46cbbfc2698cb883b615cc3c41_r.jpg?source=1940ef5c
二、代码生成：用Python编写九九乘法表

http://picx.zhimg.com/v2-85516f332c83ad92b2c2d7bab213cb22_r.jpg?source=1940ef5c
三、公式生成：解释三角函数

http://pic1.zhimg.com/v2-9cfff7eb61f41e42d125c8eb2d7f1f2b_r.jpg?source=1940ef5c
四、英文写作及润色：请用英文润色并扩充标题《Value every minute》

http://picx.zhimg.com/v2-70ccc319f6dec6910de9adeb0c3740f5_r.jpg?source=1940ef5c
五、Others：百科知识、逻辑推理、内容概述等

http://picx.zhimg.com/v2-b5315e97b65356de861858b1749272e7_r.jpg?source=1940ef5c

http://pica.zhimg.com/v2-c4239da8c441bf5928d5dcbf48fcaf60_r.jpg?source=1940ef5c

http://picx.zhimg.com/v2-c51d3d93701fdd81bad4fabec068fe3f_r.jpg?source=1940ef5c
我还尝试了用“AI克星”——【弱智吧】的一些问题向它发起“灵魂拷问”。

http://pic1.zhimg.com/v2-85cf3a6a447acdb689a96ad1bdf53db6_r.jpg?source=1940ef5c

http://pic1.zhimg.com/v2-f17ae790132ad78460bf0577ca24d318_r.jpg?source=1940ef5c
最后，关于驱动大模型对话的重要手段——指令，如何创造一个高质量的指令驱动大模型生成满意的回答；如何结合各行业、各场景的实际需要创造高质量的指令模板；如何推动广大用户对于指令的分享和交流，并打造星火认知大模型的指令集生态，这也是我们将持续、重点探索的一环。
最最后，再次感谢各位小伙伴的关注与阅读，5月6日的讯飞星火大模型发布会也非常成功，有兴趣的同学可以去看看相关报道。

laji 发表于 2023-11-2 05:22:55

总体来讲，挺好的。模型能力过关，落地产品丰富，涵盖了方方面，发布会差不多讲了有两三个小时吧？甚至配套的硬件已经开售了。
国内目前发布的大模型里，除了清华的 ChatGLM 开源可以自己部署，科大讯飞这个应该是最容易申请的了。十几天之前就可以申请试用了（官方也没邀请我，所以我是自来水，hhh）：
讯飞星火认知大模型科大讯飞星火认知大…今天的发布会上，也给了一个体验地址，一个月内可以体验部分功能：
科大讯飞AI学习机体验中心
http://pic1.zhimg.com/v2-7dc6899d3ce51b10d05d84d1be7477db_r.jpg?source=1940ef5c
这两天比较忙，我就不帮大家做评测了，大家注册自己玩玩就知道效果了。
<hr/>看完今天的发布会，我的一个明显感受是，讯飞、商汤的发布会效果明显好于百度、阿里。
想来，技术、产品、宣发，这些真是不完全等价的。大模型是技术底座，上面可以生长出很多与需求结合的业务产品，最终要在发布会上以良好的效果呈现出来。
百度是第一个吃螃蟹的，目前来看，似乎也真的是给大家探路铺路了。
当然了，发布会的编排、设计本身也是一种能力和付出，是需要非常多的落地产品作支撑，才能让人觉得充实饱满。
也因此，进而我的另一个感受就是，像科大讯飞、商汤这样专注于 AI 的企业，没有包袱，也没有退路，因此他们在全面拥抱大模型的选择上，更加全力以赴，也因而呈现出了和百度、阿里不一样的效果。一个不太恰当的类比，恰恰如同 OpenAI 和谷歌。大公司历史包袱更重，部门掣肘更多。
不过大家发力的方向不一样，百度阿里更侧重于 toB 和云，百花齐放，挺好的。
<hr/>
http://pic1.zhimg.com/v2-ac9d2ef3350007af7d550b8616d5143e_r.jpg?source=1940ef5c
今天的发布会铺垫了很久，然后推出了 AI 学习机。群里也有不少人在说，弄到最后成带货的了。
我倒觉得挺好的，这恰恰说明，结合需求的应用有落地思路，甚至能直接卖硬件了，再加上会员服务，赢两次！企业还是要挣钱的，研发，销售，挣钱，再投入研发，形成良性的正向循环。
这样一想，科大讯飞其实是有一些积淀的优势的，比如语音、OCR、学习机，这些都是他们过去已有的技术，现在来了大模型，装上了更强的头脑，可能瞬间就会把效果提升到另一个维度。
<hr/>不过话说回来，大模型毕竟有其固有缺陷，如果现在把大模型能力真正落地应用到教育中，还是希望能更重视安全，国外的担忧虽然有一些过分渲染，但合理的部分还是要重点考虑。
比如发布会上的作文评讲功能：

http://pic1.zhimg.com/v2-7ce74d6d429d7b32fb1abc876714ff97_r.jpg?source=1940ef5c
说实话，这个功能，我自己用 GPT API 做过一次，虽然 UI 效果不是这样，但核心意图是一样的。我做出来之后，在想一件事，如果这样的产品真的推开了，学生们以后岂不是反过来在迎合AI的口味了？
当然这可能有些抬杠，毕竟一些老师来改卷，也存在同样抹杀创意，变成八股文的问题。AI 其实是普惠的，其实是以更低的成本服务更多人的，总体来讲肯定还是进步非常多的。不过这并不妨碍我们继续去思考—— AI 在教育应用中，如何提供个性化、有创造力的内容。
<hr/>总之，AI 的浪潮已经不可逆转，就像 Hinton 说的那样，他不做，也有人会做。类似的产品，讯飞不做，别人也会做。一方面感慨于技术进步之快，另一方面，在人与 AI 的相处之道上，我们还有很多很多问题需要思考和解决。

xingke 发表于 2023-11-2 05:23:22

早早就拿到了邀请码，成功吃到第一手螃蟹，那么现在开始测试。

http://picx.zhimg.com/v2-c66cafdea5fabacba7a1338f30967fdd_r.jpg?source=1940ef5c
“星火认知大模型”是纯文本模型，输入和输出内容全是文本，与ChatGPT和ChatGLM模型一致，与GPT4和文心一言不同。可以接受语音输入，其实是ASR功能将语音转到对话框中，本质发送的还是文本内容。生成的文本内容可以输出语音，其实是通过TTS来实现，这也是讯飞的特点吧。
发布会上测试的内容还是挺全面的。之前内测过智谱的“ChatGLM-130B”和阿里的“通义千问”，以相同的问题来测试一下讯飞的“星火”吧。
先来一道写代码的题目，问：“我现在有张excel表，表头如下：世界排名、学校名称、地区、综合得分，写一个代码将学校名称后面加“*”并打印出结果。”

http://pica.zhimg.com/v2-5525cde7e7e5d93bbeb77f0441c6b183_r.jpg?source=1940ef5c
生成代码正确，成功将“学校名称”一列内容加“*”，效果很理想。
接下来测试一下“国粹”，
问：“以“拣尽寒枝不肯栖”为题写一首以“念奴娇”为词牌名的宋词”

http://picx.zhimg.com/v2-95dd16a38d4c5d089294eb90cd26f224_r.jpg?source=1940ef5c
再问：“以“报效国家”为藏头字，“闺怨思乡”为主题写一首七言绝句”

http://pica.zhimg.com/v2-dcbe45f6914a9a7169701b19fd7780b0_r.jpg?source=1940ef5c
模型并没有理解藏头诗的含义，在国粹上还有待提高。欢迎大家贴出测试国粹方面的结果。
再问：“历史上有没有一听就让人落泪的话？”

http://pic1.zhimg.com/v2-74789f55b0911c4d9ad3107370694365_r.jpg?source=1940ef5c
与其他大模型一样，仍然存在一些事实性错误。

http://pic1.zhimg.com/v2-ab241c0dab7c8e89f788a618b0b33fe9_r.jpg?source=1940ef5c
问问金庸小说的内容，生成内容一开始挺好的，后面还是有事实性错误，虽然用于承认错误，但并没有改对。

http://picx.zhimg.com/v2-13eacc7bb1ffbea1e545a2be66eef723_r.jpg?source=1940ef5c

http://pica.zhimg.com/v2-929f51c88e4a7b282b1dfe784b2c3182_r.jpg?source=1940ef5c

http://picx.zhimg.com/v2-747d57ed1e981017b922d5386d90d152_r.jpg?source=1940ef5c
角色扮演的效果也还很好的，可以按照角色，解决实际问题，问：“你是一个海康威视门禁系统故障的工程师，请帮我处理摄像机网路不通的问题”

http://picx.zhimg.com/v2-84a6fb72e3eeb55c5c0de099095fd287_r.jpg?source=1940ef5c
再问问我公司是做什么的吧，看来我司确实没啥名气。。。

http://pica.zhimg.com/v2-dd5918e8d34e437693eebb6f45dfab9b_r.jpg?source=1940ef5c
让它扮演文心一言模型的时候，还是很抗拒的，并没有成功对它洗脑。

http://picx.zhimg.com/v2-bad80cb74f34fe72fb206569327949a3_r.jpg?source=1940ef5c
后续测试将持续更新~~

xinlaide 发表于 2023-11-2 05:23:47

自从ChatGPT横空出世以来，其余大大小小的LLM模型便层出不穷。
从去年年末的ChatGPT，后续升级版的GPT-4，以及谷歌、百度、阿里和知乎的图海AI等，大语言模型的繁荣时代到来了。

http://picx.zhimg.com/v2-0e41a7aa1de67a4cd4334e32dabc7757_r.jpg?source=1940ef5c
今年注定是LLM大放异彩的一年，更宽泛的说，最近几年注定是生成式AI（AIGC）大放光芒的一段岁月。

http://picx.zhimg.com/v2-0ea633bf1b59926abcc5d99b2a287bcf_r.jpg?source=1940ef5c
今天，又一个新的模型开放使用，感谢 @知乎科技，提前拿到了科大讯飞星火认知模型的内测资格。
其实关于大模型的测试内容，之前以及做过很多了，数学计算，代码生成，文字润色和资料查询等。
而这些内容，发布会上也都展示过了，所以并不想做过多的篇幅来分析，这里略作展示。
生成故事方面，依旧欠缺分辨真实与否的能力，这个似乎大部分模型都一样，还没有做的非常好的。

http://pic1.zhimg.com/v2-c7a4495d1f45b976f8060993ccd59a6e_r.jpg?source=1940ef5c
生成代码能力

http://pica.zhimg.com/v2-73eeb33f0de73da32ff78bced09509e7_r.jpg?source=1940ef5c
代码分析能力：

http://picx.zhimg.com/v2-d59767c83540dc7c746b47b6b8f7b95d_r.jpg?source=1940ef5c
分析的也不错，但比起GPT-4起来，分析粒度还是粗一些，但基本持平或者优于其它LLM。
此外，上述生成文本过程中，第一个感受到的优势就是生成速度非常之快，不同于ChatGPT一个个吐字的缓慢过程，星火主要是在嗖嗖的生成（逃
很符合星火这个名字的特点（shide
其次，还有两个特点
第一、星火发布会上将自己的优势侧重在教育领域，如作文的评阅与修改，包括字词，语法方面。英语文章的语法和单词使用也可以做到润色修改。科大讯飞主要将自己的OCR+LLM技术结合在一起来实现。

http://picx.zhimg.com/v2-e92c558d59f7cd049929f5703a5417cf_r.jpg?source=1940ef5c

http://picx.zhimg.com/v2-8c2e4961b3d8b321fa2f092f3bcae485_r.jpg?source=1940ef5c
第二、科大讯飞的另外一个优势在于它的语音识别和翻译能力，科大讯飞拥有最好的语音识别翻译技术，Speech-to-Text + LLM，来进行英语对话，练习语法对话能力，确实蛮好的。

http://picx.zhimg.com/v2-bef36a7d8b0eb9fb1b033b1dee29e088_r.jpg?source=1940ef5c
如果你觉得ChatGPT一个个蹦字实在有点折磨，不妨来试试星火模型。
就目前的短暂使用而言，体验感蛮好的，唯一遗憾的可能就是不支持多模态输出，没法儿提供图像出来玩。

zknet 发表于 2023-11-2 05:24:24

科大讯飞自研星火认知大模型发布是本人体验过的，最好的中文语言大模型了，应该代表着目前国内的顶级水平！！！
简单对话过程中，可以感觉到其语言理解能力很强，反应速度超级快，实时反馈效果超级好。
是一款超出预期的大模型，一定程度上可以作为 ChatGPT 的平替了。
发布会上全部都是直接真机演示，而且我还跟着试了一下，感觉实在太强了。
这是科大讯飞设计的评测模型，包含七个维度可对通用智能大模型进行评测。

http://picx.zhimg.com/v2-a49c5aeacf453f7d952a209ef17e7b89_r.jpg?source=1940ef5c
上手体验

第一反应肯定是快，比起chatgpt等一个字一个字吐，星火的文本生成速度要快很多倍。
由于反应速度非常快，于是我撩了几下，就下意识地问他为什么这么快？答案是因为其实时地分析意图并生成回复，大概就是我输入的过程中，其已经在想回答了。
这使得其能够更自然地实现直接的实时语音交互，这对于很多场景的落地体验提升，非常重要，比如AI语音助手，学习机，智能座舱等等。

http://pica.zhimg.com/v2-3df62b5dae010fc611600b123b96e99e_r.jpg?source=1940ef5c
我让他帮我写一个程序？（发布会上承认编程能力还不如chatgpt，但再过几个月会赶上）

http://pic1.zhimg.com/v2-b53f6172908287652162c17ce2b24392_r.jpg?source=1940ef5c
让他帮我写一首诗

http://picx.zhimg.com/v2-aa086cd6a00aabceff31821011433933_r.jpg?source=1940ef5c
问他一个相对专业的问题？

http://pica.zhimg.com/v2-fff7bf4755cadac3b083f25ca1b585dc_r.jpg?source=1940ef5c
让他写一个故事？

http://picx.zhimg.com/v2-326c84355abb9c2c36eb555ea093a313_r.jpg?source=1940ef5c
让他写一点儿带尺/度的内容。

http://picx.zhimg.com/v2-f69f41a816bc8f89a5b7288554092f91_r.jpg?source=1940ef5c
目前的不足，发布会上也都说了，在英文和编程方面，还不如chatgpt，但再过几个月，就能够赶上。
简单测试了一下英文水平，感觉确实还有待提升，但别的都没啥问题了。

http://picx.zhimg.com/v2-87c5e3abd6677dfdbd63ca80148476c5_r.jpg?source=1940ef5c
科大讯飞的星火大模型，不像之前发布的很多大模型，大家评价都比较牵强，会觉得迈出了第一步，有比好更重要。
科大讯飞的星火大模型的语言功能，成熟度感觉已经很高了，也非常好用，虽然我没有直接横评和其他的对比，但体验本身是超预期的。
AI学习机

科大讯飞的优势，在于本身其在AI产业落地方面做了很多应用型的产品，比如有很多基于AI的产品，AI语音学习机，AI学习笔等。
这些落地场景的ToC的产品，在接入科大讯飞星火大模型后，可以更好地改变孩子的学习，和人们的生活。
其实很容易预判到，这波AI浪潮将对未来的教育和学习造成冲击，就像之前的阿尔法狗对围棋造成的冲击一样。
过去孩子要学习好，得依靠名师，名校；而未来，那些自我学习能力强的孩子，可以借助AI来学习，越过名师，造就最强的自己！
就像围棋打谱一样，对着AI学就行。

http://pica.zhimg.com/v2-f6c56201652ba1e64f56ed2c780886e5_r.jpg?source=1940ef5c
智能座舱

在ChatGPT刚出来的时候，就期待其可以赋能语音助手，给小爱/siri等助手赋能。
从科大讯飞的演示效果来看，现在已经做的很好了。
而且科大讯飞还推出了融合星火大模型的智能座舱交互系统，这将极大提升智能座舱系统的体验。用于导航，对话，智能提醒，孩子娱乐等！！

http://pic1.zhimg.com/v2-51232c7ac454a2746898b03b0195e989_r.jpg?source=1940ef5c
虚拟人智能交互机

还有科大讯飞推出的虚拟人智能交互机，未来的很多前台和服务人员，或许都不需要了。
这在医院/政务办公/导游等很多地方，都有很广泛的应用场景。

http://picx.zhimg.com/v2-e8eafb999539add41d8654728f46e511_r.jpg?source=1940ef5c
数字员工（辅助搬砖）

还可以直接用于招聘等商业场景，讯飞把之前很多企业只想过，但没做出来的，基本都做出来了，而且从演示效果来看，体验也非常不错。

http://pic1.zhimg.com/v2-4873a52ed290b3e4f5c628dcc40d7a8a_r.jpg?source=1940ef5c
这智能化的脚本执行功能，也能帮大家解决很多日常办公中的问题，有助于大幅提升效率。

http://picx.zhimg.com/v2-44e1e8ec19f73f3e57d7881ee6277ed3_r.jpg?source=1940ef5c
帮助生成表格。

http://picx.zhimg.com/v2-100e0ba4bd8fd19f04f150e68c454910_r.jpg?source=1940ef5c
自动数据分析。

http://pic1.zhimg.com/v2-338fa1dc275eeb0bee5e50cf5488ac6b_r.jpg?source=1940ef5c
自动生成PPT。

http://picx.zhimg.com/v2-4d0b00438d313889546e1786024b924e_r.jpg?source=1940ef5c
未来将赋能更多行业

这已经不是画饼了，有落地经验的科大讯飞，在发布会上展现出来的落地应用能力，要远超之前的很多大模型。（尽管这与其后发制人有关，但确实做的非常好）

http://pic1.zhimg.com/v2-09bf642981ded51105b122f1c5d41edf_r.jpg?source=1940ef5c
以上，后悔上半年杀入大A的时候，没有跟风冲AIGC概念股了，错亿！！！

http://picx.zhimg.com/v2-802649582cb6e03e1f8c6e62d5e70087_r.jpg?source=1940ef5c

页: [1]

今日问答's Archiver

科大讯飞自研星火认知大模型发布，能力如何？有哪些技术亮点？