海默子 发表于 2023-11-2 05:21:48

科大讯飞自研星火认知大模型发布,能力如何?有哪些技术亮点?

讯飞星火认知大模型现场实测七大核心能力,发布四大行业应用成果 - 知乎

之海 发表于 2023-11-2 05:22:27

谢邀,知乎的小伙伴们大家好,作为科大讯飞公关负责人、一名讯飞人,主要参与了讯飞星火大模型从研发到发布的重要历程,感谢大家对于讯飞和星火认知大模型的关注。今年上半年,在ChatGPT为代表产品掀起的浪潮下,国内的AI大模型赛道形成了百花齐放、百家争鸣的局面,4月20日,我们讯飞也正式对外宣布了“星火认知大模型”发布会的消息,目前大家可以在官网(https://xinghuo.xfyun.cn)申请优先体验权益。今天我以一个内部参与者的角色,与大家聊聊这款产品。
讯飞星火认知大模型,是基于深度学习的、以中文为核心的自然语言处理模型,具备在跨领域多任务上类人的理解和生成能力,可实现基于自然对话方式的用户需求理解与任务执行,用一句话来概括就是“只需一个指令便可以懂你所言、答你所问、创你所需、解你所难、学你所教。”
在讯飞有一句话叫“技术顶天,应用立地”,先从技术积累上来看,2011年科大讯飞便承建了语音及语言信息处理国家工程实验室,提出让机器像人一样能听会说,这一次认知大模型本质上是一次对话式的通用智慧的涌现,语音和语言的核心能力是一个基础条件。在国家平台和讯飞超脑计划的支撑下,过去几年讯飞在认知智能领域取得了一系列全球领先的成果。”2017年,科大讯飞承建认知智能国家重点实验室,也就是从这一年起,科大讯飞不仅让机器在全球首次通过了国家职业医师资格考试、超过了96.3%参加考试的医生,并且在SQuAD机器阅读理解中全球首次超过人类平均水平,刚刚过去的2022年在OpenBookQA 科学知识推理中,单模型也超过人类平均水平。可以说多年来科大讯飞已在认知智能领域有了丰富的储备和积累。在算力方面, 2009年我们便开始布局算力基础设施建设,目前已建成4城7中心深度学习计算平台;技术上,讯飞承建了认知智能全国重点实验室,这是2022年国家重点实验室重组后的首批20个国家标杆实验室中唯一一家;人才上,讯飞目前已经拥有超过200人的大模型核心研究团队,其中有数位是《麻省理工科技评论》“35岁以下科技创新35人”榜单中顶尖的科学家。
其次,在应用上,星火认知大模型的整体布局为“1+N”体系。其中,“1”是通用认知智能大模型算法研发及高效训练底座平台,也就是大家获得内测权益后进入的官网界面“SparkDesk”;“N”则是大模型应用于教育、医疗、人机交互、办公等多个行业领域的专用场景。此外我们还会以API形式为企业提供服务,让各类企业可以根据自己的需求个性化开发,实现产品创新。在5月6日的讯飞星火大模型发布会上,科大讯飞董事长刘庆峰也表示,从ChatGPT关注的48个主要任务方向和讯飞开放平台上400多万开发者团队的需求分析,通用人工智能应当具备七大维度能力,包括文本生成、语言理解,知识问答、逻辑推理、数学能力、代码能力、多模态能力等。
那么针对讯飞星火认知大模型支持的以上七大维度的能力,下面为大家展示一些我的体验示例:
一、文本生成:王家卫会怎么描写《我在超市买香皂》?星火的回答“王家味儿”还是很浓的。

http://pic1.zhimg.com/v2-691edc46cbbfc2698cb883b615cc3c41_r.jpg?source=1940ef5c
二、代码生成:用Python编写九九乘法表

http://picx.zhimg.com/v2-85516f332c83ad92b2c2d7bab213cb22_r.jpg?source=1940ef5c
三、公式生成:解释三角函数

http://pic1.zhimg.com/v2-9cfff7eb61f41e42d125c8eb2d7f1f2b_r.jpg?source=1940ef5c
四、英文写作及润色:请用英文润色并扩充标题《Value every minute》

http://picx.zhimg.com/v2-70ccc319f6dec6910de9adeb0c3740f5_r.jpg?source=1940ef5c
五、Others:百科知识、逻辑推理、内容概述等

http://picx.zhimg.com/v2-b5315e97b65356de861858b1749272e7_r.jpg?source=1940ef5c

http://pica.zhimg.com/v2-c4239da8c441bf5928d5dcbf48fcaf60_r.jpg?source=1940ef5c

http://picx.zhimg.com/v2-c51d3d93701fdd81bad4fabec068fe3f_r.jpg?source=1940ef5c
我还尝试了用“AI克星”——【弱智吧】的一些问题向它发起“灵魂拷问”。

http://pic1.zhimg.com/v2-85cf3a6a447acdb689a96ad1bdf53db6_r.jpg?source=1940ef5c

http://pic1.zhimg.com/v2-f17ae790132ad78460bf0577ca24d318_r.jpg?source=1940ef5c
最后,关于驱动大模型对话的重要手段——指令,如何创造一个高质量的指令驱动大模型生成满意的回答;如何结合各行业、各场景的实际需要创造高质量的指令模板;如何推动广大用户对于指令的分享和交流,并打造星火认知大模型的指令集生态,这也是我们将持续、重点探索的一环。
最最后,再次感谢各位小伙伴的关注与阅读,5月6日的讯飞星火大模型发布会也非常成功,有兴趣的同学可以去看看相关报道。

laji 发表于 2023-11-2 05:22:55

总体来讲,挺好的。模型能力过关,落地产品丰富,涵盖了方方面,发布会差不多讲了有两三个小时吧?甚至配套的硬件已经开售了。
国内目前发布的大模型里,除了清华的 ChatGLM 开源可以自己部署,科大讯飞这个应该是最容易申请的了。十几天之前就可以申请试用了(官方也没邀请我,所以我是自来水,hhh):
讯飞星火认知大模型 科大讯飞星火认知大…今天的发布会上,也给了一个体验地址,一个月内可以体验部分功能:
科大讯飞AI学习机体验中心
http://pic1.zhimg.com/v2-7dc6899d3ce51b10d05d84d1be7477db_r.jpg?source=1940ef5c
这两天比较忙,我就不帮大家做评测了,大家注册自己玩玩就知道效果了。
<hr/>看完今天的发布会,我的一个明显感受是,讯飞、商汤的发布会效果明显好于百度、阿里。
想来,技术、产品、宣发,这些真是不完全等价的。大模型是技术底座,上面可以生长出很多与需求结合的业务产品,最终要在发布会上以良好的效果呈现出来。
百度是第一个吃螃蟹的,目前来看,似乎也真的是给大家探路铺路了。
当然了,发布会的编排、设计本身也是一种能力和付出,是需要非常多的落地产品作支撑,才能让人觉得充实饱满。
也因此,进而我的另一个感受就是,像科大讯飞、商汤这样专注于 AI 的企业,没有包袱,也没有退路,因此他们在全面拥抱大模型的选择上,更加全力以赴,也因而呈现出了和百度、阿里不一样的效果。一个不太恰当的类比,恰恰如同 OpenAI 和谷歌。大公司历史包袱更重,部门掣肘更多。
不过大家发力的方向不一样,百度阿里更侧重于 toB 和云,百花齐放,挺好的。
<hr/>
http://pic1.zhimg.com/v2-ac9d2ef3350007af7d550b8616d5143e_r.jpg?source=1940ef5c
今天的发布会铺垫了很久,然后推出了 AI 学习机。群里也有不少人在说,弄到最后成带货的了。
我倒觉得挺好的,这恰恰说明,结合需求的应用有落地思路,甚至能直接卖硬件了,再加上会员服务,赢两次!企业还是要挣钱的,研发,销售,挣钱,再投入研发,形成良性的正向循环。
这样一想,科大讯飞其实是有一些积淀的优势的,比如语音、OCR、学习机,这些都是他们过去已有的技术,现在来了大模型,装上了更强的头脑,可能瞬间就会把效果提升到另一个维度。
<hr/>不过话说回来,大模型毕竟有其固有缺陷,如果现在把大模型能力真正落地应用到教育中,还是希望能更重视安全,国外的担忧虽然有一些过分渲染,但合理的部分还是要重点考虑。
比如发布会上的作文评讲功能:

http://pic1.zhimg.com/v2-7ce74d6d429d7b32fb1abc876714ff97_r.jpg?source=1940ef5c
说实话,这个功能,我自己用 GPT API 做过一次,虽然 UI 效果不是这样,但核心意图是一样的。我做出来之后,在想一件事,如果这样的产品真的推开了,学生们以后岂不是反过来在迎合AI的口味了?
当然这可能有些抬杠,毕竟一些老师来改卷,也存在同样抹杀创意,变成八股文的问题。AI 其实是普惠的,其实是以更低的成本服务更多人的,总体来讲肯定还是进步非常多的。不过这并不妨碍我们继续去思考—— AI 在教育应用中,如何提供个性化、有创造力的内容。
<hr/>总之,AI 的浪潮已经不可逆转,就像 Hinton 说的那样,他不做,也有人会做。类似的产品,讯飞不做,别人也会做。一方面感慨于技术进步之快,另一方面,在人与 AI 的相处之道上,我们还有很多很多问题需要思考和解决。

xingke 发表于 2023-11-2 05:23:22

早早就拿到了邀请码 ,成功吃到第一手螃蟹,那么现在开始测试。

http://picx.zhimg.com/v2-c66cafdea5fabacba7a1338f30967fdd_r.jpg?source=1940ef5c
“星火认知大模型”是纯文本模型,输入和输出内容全是文本,与ChatGPT和ChatGLM模型一致,与GPT4和文心一言不同。可以接受语音输入,其实是ASR功能将语音转到对话框中,本质发送的还是文本内容。生成的文本内容可以输出语音,其实是通过TTS来实现,这也是讯飞的特点吧。
发布会上测试的内容还是挺全面的。之前内测过智谱的“ChatGLM-130B”和阿里的“通义千问”,以相同的问题来测试一下讯飞的“星火”吧。
先来一道写代码的题目,问:“我现在有张excel表,表头如下:世界排名、学校名称、地区、综合得分,写一个代码将学校名称后面加“*”并打印出结果。”

http://pica.zhimg.com/v2-5525cde7e7e5d93bbeb77f0441c6b183_r.jpg?source=1940ef5c
生成代码正确,成功将“学校名称”一列内容加“*”,效果很理想。
接下来测试一下“国粹”,
问:“以“拣尽寒枝不肯栖”为题写一首以“念奴娇”为词牌名的宋词”

http://picx.zhimg.com/v2-95dd16a38d4c5d089294eb90cd26f224_r.jpg?source=1940ef5c
再问:“以“报效国家”为藏头字,“闺怨思乡”为主题写一首七言绝句”

http://pica.zhimg.com/v2-dcbe45f6914a9a7169701b19fd7780b0_r.jpg?source=1940ef5c
模型并没有理解藏头诗的含义,在国粹上还有待提高。欢迎大家贴出测试国粹方面的结果。
再问:“历史上有没有一听就让人落泪的话?”

http://pic1.zhimg.com/v2-74789f55b0911c4d9ad3107370694365_r.jpg?source=1940ef5c
与其他大模型一样,仍然存在一些事实性错误。

http://pic1.zhimg.com/v2-ab241c0dab7c8e89f788a618b0b33fe9_r.jpg?source=1940ef5c
问问金庸小说的内容,生成内容一开始挺好的,后面还是有事实性错误,虽然用于承认错误,但并没有改对。

http://picx.zhimg.com/v2-13eacc7bb1ffbea1e545a2be66eef723_r.jpg?source=1940ef5c

http://pica.zhimg.com/v2-929f51c88e4a7b282b1dfe784b2c3182_r.jpg?source=1940ef5c

http://picx.zhimg.com/v2-747d57ed1e981017b922d5386d90d152_r.jpg?source=1940ef5c
角色扮演的效果也还很好的,可以按照角色,解决实际问题,问:“你是一个海康威视门禁系统故障的工程师,请帮我处理摄像机网路不通的问题”

http://picx.zhimg.com/v2-84a6fb72e3eeb55c5c0de099095fd287_r.jpg?source=1940ef5c
再问问我公司是做什么的吧,看来我司确实没啥名气。。。

http://pica.zhimg.com/v2-dd5918e8d34e437693eebb6f45dfab9b_r.jpg?source=1940ef5c
让它扮演文心一言模型的时候,还是很抗拒的,并没有成功对它洗脑。

http://picx.zhimg.com/v2-bad80cb74f34fe72fb206569327949a3_r.jpg?source=1940ef5c
后续测试将持续更新~~

xinlaide 发表于 2023-11-2 05:23:47

自从ChatGPT横空出世以来,其余大大小小的LLM模型便层出不穷。
从去年年末的ChatGPT,后续升级版的GPT-4,以及谷歌、百度、阿里和知乎的图海AI等,大语言模型的繁荣时代到来了。

http://picx.zhimg.com/v2-0e41a7aa1de67a4cd4334e32dabc7757_r.jpg?source=1940ef5c
今年注定是LLM大放异彩的一年,更宽泛的说,最近几年注定是生成式AI(AIGC)大放光芒的一段岁月。

http://picx.zhimg.com/v2-0ea633bf1b59926abcc5d99b2a287bcf_r.jpg?source=1940ef5c
今天,又一个新的模型开放使用,感谢 @知乎科技 ,提前拿到了科大讯飞星火认知模型的内测资格。
其实关于大模型的测试内容,之前以及做过很多了,数学计算,代码生成,文字润色和资料查询等。
而这些内容,发布会上也都展示过了,所以并不想做过多的篇幅来分析,这里略作展示。
生成故事方面,依旧欠缺分辨真实与否的能力,这个似乎大部分模型都一样,还没有做的非常好的。

http://pic1.zhimg.com/v2-c7a4495d1f45b976f8060993ccd59a6e_r.jpg?source=1940ef5c
生成代码能力

http://pica.zhimg.com/v2-73eeb33f0de73da32ff78bced09509e7_r.jpg?source=1940ef5c
代码分析能力:

http://picx.zhimg.com/v2-d59767c83540dc7c746b47b6b8f7b95d_r.jpg?source=1940ef5c
分析的也不错,但比起GPT-4起来,分析粒度还是粗一些,但基本持平或者优于其它LLM。
此外,上述生成文本过程中,第一个感受到的优势就是生成速度非常之快,不同于ChatGPT一个个吐字的缓慢过程,星火主要是在嗖嗖的生成 (逃
很符合星火这个名字的特点(shide
其次,还有两个特点
第一、星火发布会上将自己的优势侧重在教育领域,如作文的评阅与修改,包括字词,语法方面。英语文章的语法和单词使用也可以做到润色修改。科大讯飞主要将自己的OCR+LLM技术结合在一起来实现。

http://picx.zhimg.com/v2-e92c558d59f7cd049929f5703a5417cf_r.jpg?source=1940ef5c

http://picx.zhimg.com/v2-8c2e4961b3d8b321fa2f092f3bcae485_r.jpg?source=1940ef5c
第二、科大讯飞的另外一个优势在于它的语音识别和翻译能力,科大讯飞拥有最好的语音识别翻译技术,Speech-to-Text + LLM,来进行英语对话,练习语法对话能力,确实蛮好的。

http://picx.zhimg.com/v2-bef36a7d8b0eb9fb1b033b1dee29e088_r.jpg?source=1940ef5c
如果你觉得ChatGPT一个个蹦字实在有点折磨 ,不妨来试试星火模型。
就目前的短暂使用而言,体验感蛮好的,唯一遗憾的可能就是不支持多模态输出,没法儿提供图像出来玩。

zknet 发表于 2023-11-2 05:24:24

科大讯飞自研星火认知大模型发布是本人体验过的,最好的中文语言大模型了,应该代表着目前国内的顶级水平!!!
简单对话过程中,可以感觉到其语言理解能力很强,反应速度超级快,实时反馈效果超级好。
是一款超出预期的大模型,一定程度上可以作为 ChatGPT 的平替了。
发布会上全部都是直接真机演示,而且我还跟着试了一下,感觉实在太强了。
这是科大讯飞设计的评测模型,包含七个维度可对通用智能大模型进行评测。

http://picx.zhimg.com/v2-a49c5aeacf453f7d952a209ef17e7b89_r.jpg?source=1940ef5c
上手体验

第一反应肯定是快,比起chatgpt等一个字一个字吐,星火的文本生成速度要快很多倍。
由于反应速度非常快,于是我撩了几下,就下意识地问他为什么这么快?答案是因为其实时地分析意图并生成回复,大概就是我输入的过程中,其已经在想回答了。
这使得其能够更自然地实现直接的实时语音交互,这对于很多场景的落地体验提升,非常重要,比如AI语音助手,学习机,智能座舱等等。

http://pica.zhimg.com/v2-3df62b5dae010fc611600b123b96e99e_r.jpg?source=1940ef5c
我让他帮我写一个程序?(发布会上承认编程能力还不如chatgpt,但再过几个月会赶上)

http://pic1.zhimg.com/v2-b53f6172908287652162c17ce2b24392_r.jpg?source=1940ef5c
让他帮我写一首诗

http://picx.zhimg.com/v2-aa086cd6a00aabceff31821011433933_r.jpg?source=1940ef5c
问他一个相对专业的问题?

http://pica.zhimg.com/v2-fff7bf4755cadac3b083f25ca1b585dc_r.jpg?source=1940ef5c
让他写一个故事?

http://picx.zhimg.com/v2-326c84355abb9c2c36eb555ea093a313_r.jpg?source=1940ef5c
让他写一点儿带尺/度的内容。

http://picx.zhimg.com/v2-f69f41a816bc8f89a5b7288554092f91_r.jpg?source=1940ef5c
目前的不足,发布会上也都说了,在英文和编程方面,还不如chatgpt,但再过几个月,就能够赶上。
简单测试了一下英文水平,感觉确实还有待提升,但别的都没啥问题了。

http://picx.zhimg.com/v2-87c5e3abd6677dfdbd63ca80148476c5_r.jpg?source=1940ef5c
科大讯飞的星火大模型,不像之前发布的很多大模型,大家评价都比较牵强,会觉得迈出了第一步,有比好更重要。
科大讯飞的星火大模型的语言功能,成熟度感觉已经很高了,也非常好用,虽然我没有直接横评和其他的对比,但体验本身是超预期的。
AI学习机

科大讯飞的优势,在于本身其在AI产业落地方面做了很多应用型的产品,比如有很多基于AI的产品,AI语音学习机,AI学习笔等。
这些落地场景的ToC的产品,在接入科大讯飞星火大模型后,可以更好地改变孩子的学习,和人们的生活。
其实很容易预判到,这波AI浪潮将对未来的教育和学习造成冲击,就像之前的阿尔法狗对围棋造成的冲击一样。
过去孩子要学习好,得依靠名师,名校;而未来,那些自我学习能力强的孩子,可以借助AI来学习,越过名师,造就最强的自己!
就像围棋打谱一样,对着AI学就行。

http://pica.zhimg.com/v2-f6c56201652ba1e64f56ed2c780886e5_r.jpg?source=1940ef5c
智能座舱

在ChatGPT刚出来的时候,就期待其可以赋能语音助手,给小爱/siri等助手赋能。
从科大讯飞的演示效果来看,现在已经做的很好了。
而且科大讯飞还推出了融合星火大模型的智能座舱交互系统,这将极大提升智能座舱系统的体验。用于导航,对话,智能提醒,孩子娱乐等!!

http://pic1.zhimg.com/v2-51232c7ac454a2746898b03b0195e989_r.jpg?source=1940ef5c
虚拟人智能交互机

还有科大讯飞推出的虚拟人智能交互机,未来的很多前台和服务人员,或许都不需要了。
这在医院/政务办公/导游等很多地方,都有很广泛的应用场景。

http://picx.zhimg.com/v2-e8eafb999539add41d8654728f46e511_r.jpg?source=1940ef5c
数字员工(辅助搬砖)

还可以直接用于招聘等商业场景,讯飞把之前很多企业只想过,但没做出来的,基本都做出来了,而且从演示效果来看,体验也非常不错。

http://pic1.zhimg.com/v2-4873a52ed290b3e4f5c628dcc40d7a8a_r.jpg?source=1940ef5c
这智能化的脚本执行功能,也能帮大家解决很多日常办公中的问题,有助于大幅提升效率。

http://picx.zhimg.com/v2-44e1e8ec19f73f3e57d7881ee6277ed3_r.jpg?source=1940ef5c
帮助生成表格。

http://picx.zhimg.com/v2-100e0ba4bd8fd19f04f150e68c454910_r.jpg?source=1940ef5c
自动数据分析。

http://pic1.zhimg.com/v2-338fa1dc275eeb0bee5e50cf5488ac6b_r.jpg?source=1940ef5c
自动生成PPT。

http://picx.zhimg.com/v2-4d0b00438d313889546e1786024b924e_r.jpg?source=1940ef5c
未来将赋能更多行业

这已经不是画饼了,有落地经验的科大讯飞,在发布会上展现出来的落地应用能力,要远超之前的很多大模型。(尽管这与其后发制人有关,但确实做的非常好)

http://pic1.zhimg.com/v2-09bf642981ded51105b122f1c5d41edf_r.jpg?source=1940ef5c
以上,后悔上半年杀入大A的时候,没有跟风冲AIGC概念股了,错亿!!!

http://picx.zhimg.com/v2-802649582cb6e03e1f8c6e62d5e70087_r.jpg?source=1940ef5c
页: [1]
查看完整版本: 科大讯飞自研星火认知大模型发布,能力如何?有哪些技术亮点?