chatgpt和文心一言哪个更好用?

[复制链接]
leonx-iii 发表于 2023-10-13 21:57:30|来自:北京 | 显示全部楼层 |阅读模式
下面是chatgpt(国内镜像)和文心一言的地址,大家可比较一下:
https://ai.douresources.com(chatgpt)
https://yiyan.baidu.com/welcome(文心一言)
全部回复5 显示全部楼层
nygaozhan 发表于 2023-10-13 21:58:21|来自:北京 | 显示全部楼层
需要明确ChatGpt是指3.5还是4,目前文心一言的水平并不比ChatGpt3.5逊色,甚至在中文能力上理解还更加优秀。但是哪个更好用,更加取决于谁来定义,定义的标准是什么?



我的AI绘画作品

百度文心一言和ChatGPT都是基于深度学习技术的自然语言处理模型。它们都有各自的优势和使用场景,因此无法简单地比较它们的功能强弱。
每个模型都有其独特的优点和限制,最终选择哪个模型需要根据具体需求来决定。让我来用实际案例测试下关于中文诗歌的理解能力吧。
一. 案例测试

来看看区别吧,就和菜肴一样,萝卜青菜各有所爱,大家可以自行评价下哪个答案更加适合自己。



我的AI绘画作品

我采用同样的提示词:
请你扮演一名资深的诗歌作者,创作一篇关于“关于家人团圆的中秋节诗歌”


我的AI绘画作品

1. ChatGPT4.0



2. ChatGPT3.5



3. 文心一言



二. 评价依据是什么?

当前,大型语言模型无疑是科技互联网领域的热点之一。2022年年底,OpenAI发布了ChatGPT3.5,迅速在国内人工智能领域引起了广泛的讨论和关注。
根据中国科学技术信息研究所2023年5月发布的不完全统计数据,国内已经有79个参数规模超过10亿的大型语言模型产品,可以说是一场“百模大战”。百度、腾讯、阿里、科大讯飞、商汤、百川智能等知名科技企业,以及一些创业明星,都纷纷参与其中。



我的AI绘画作品

与“百模大战”同样令人眼花缭乱的是,有关大型语言模型产品发布的评测榜单层出不穷。按理论来说,能力相近的大型模型在不同榜单上的结果差距应该不大。然而,实际情况是,它们在不同榜单上的排名结果可能存在天壤之别。
三. 国内榜单排名

8月15日,新华社研究院发布了《人工智能大模型体验报告2.0》,该报告对国内主流大模型进行了横向测评。评测结果显示,讯飞星火排名第一,百度文心一言排名第二,阿里通义千问排名倒数第二。



我的AI绘画作品

另一方面,SuperCLUE于8月28日发布了中文大模型的排行榜。在该榜单中,GPT-4排名第一,百川智能的Baichuan-13B-Chat名列中文榜单榜首。
此外,在学术界评测榜单C-Eval的最新一期中,云天励飞的大模型“云天书”排名第一,而GPT-4仅位列第十。
这三个榜单分别来自权威媒体、业界和学术界,都是各自领域流行的榜单。然而,它们的排名结果存在巨大差异,更不用说其他榜单了。



我的AI绘画作品

报道指出,现在国内外有多达50个知名大模型评测榜单,而它们的排名结果很少一致。
有趣的是,一些榜单甚至使用了相同的评测数据集,但排名结果却存在很大差异。就好像是同一批运动员在不同的场地上比赛,成绩排名却截然不同。那么问题到底出在运动员身上,还是发令枪有问题呢?
四. 大模型的维度评价

从ChatGPT发布到百模大战爆发,过去的8个月中,评价大型语言模型的标准主要有两个:参数量和评测集。



我的AI绘画作品

参数量是指模型中可学习的参数数量,包括权重和偏置。参数量的大小决定了模型的复杂程度,大模型通常具有更多的参数和层数。在2022年,美国发布了一批大型模型,包括Stability AI的Diffusion和OpenAI的ChatGPT,这些模型的参数数量开始进入了百亿和千亿级别。
从表面上看,具有千亿参数的模型通常表现比百亿级别的模型更好。但也有一些例外情况,并且在相同参数级别下,如何区分模型的优劣呢?



我的AI绘画作品

这就引入了大型模型的第二个评测维度:评测集。
评测集是为了有效评估基础模型和微调算法在不同场景和任务上的综合效果而构建的统一基准数据集,可分为公开和封闭两种形态。
这些评测集就像针对不同领域的考卷,通过测试大模型在这些“考卷”上的得分,可以更直观地比较大模型的性能。
在过去,大多数模型机构使用学术类评测集的效果来评判模型的好坏。现在,大模型厂商也开始积极参与学术界的基准测试框架,将其视为权威认可和营销依据。



我的AI绘画作品

例如,在Meta发布开源大模型LIama2时,明确介绍了在多个学术评测集上的表现,并公开了与闭源GPT-3.5在GSM8K和MMLU两个评测集上的对比结果。
目前,MMLU是国际上使用最多的大型模型评测集。它源自伯克利大学,考虑了57个学科,涵盖了人文、社科和理工等多个领域的综合知识能力。它已被直接应用于GPT-3.5、GPT-4和PaLM等大型语言模型的研发过程。国内科技巨头在评测时也多数采用这个框架。



我的AI绘画作品

商汤在最新财报中特别介绍了其新模型InternLM-123B在近30个学术评测集上的表现,并将MMLU评测成绩排在首位,并与Meta的llama2进行了横向比较。
随后,学术界、产业界、媒体、智库、社区以及传统ICT分析机构都敏锐地关注到这一行业热点,并在今年上半年相继发布了各自的大型语言模型评测榜单。
在当前已有的大型语言模型榜单中,UC伯克利领导的LMSYS是英文领域中最具影响力的榜单。而在中文领域,目前存在多个具有接近影响力的榜单,尚无定论哪个榜单最佳。
结语

我觉得语言大模型是否好用这个目前没有统一的榜单标准能够真正客观,同时由于人工智能语言大模型的飞速发展,差距很快会被弥补,因此纠结于哪个好用并不太有意义,成年人不做选择题,我全都要!你们觉得呢?
<hr/>我是德里克文,一个对AI绘画,人工智能有强烈兴趣,从业多年的室内设计师!如果对我的文章内容感兴趣,请帮忙关注点赞收藏,谢谢!
wx520 发表于 2023-10-13 21:58:55|来自:北京 | 显示全部楼层
二叔聊Ai:ChatGPT 从⼊⻔到精通(国内无魔法轻松使用)
二叔聊Ai:ChatGPT需要魔法,国内如何低价使用GPT4?
二叔聊Ai:小说推文项目进阶版: AI 小说推文,从零到一全流程拆解
二叔聊Ai:美图设计|AI模特试衣|AI商品图|AI海报|AI LOGO|AI鞋服
二叔聊Ai:AI写作副业项目,用指令写出10W+爆款微头条
二叔聊Ai:这个 GPT 竟内置 1000+大型模型以及模型训练自定义!
二叔聊Ai:抖音涨粉黑科技:1个月涨粉44万的AI小和尚说话视频
二叔聊Ai:AI漫画推文制作,无门槛手机就可以操作!
二叔聊Ai:深度学习技术助力企业创新与发展:智思AI企联系统
yedan888 发表于 2023-10-13 21:59:10|来自:北京 | 显示全部楼层
各有优劣。不过不知道题主使用AI工具的目的。这里分别以阅读、写代码、各种创作等角度展开做个分享。 AI工具也不只有ChatGPT,很多 AI 工具可以给工作、生活带来一定提升。
搜索

ChatGPT 刚出世时,很多人说要颠覆 Google。因为原来要找一个知识,需要在 Google 或者百度进行关键词搜索。但搜索完之后,结果将是上万张网页,需要我们一页一页点击链接,查看信息。这其中,10 条链接或许只有 1 条和问题相关。当我们没找到相关信息时,还需要重新输入关键词再搜索。
而在 ChatGPT 中,对于提问可以直接解答。不过 ChatGPT 有两个缺陷,一是信息只到 2021 年,二是没有联网缺乏及时性的新信息。
New Bing 集成了 ChatGPT 的模型。当我们输入问题后,不仅会触发搜索,还会自动浏览网页文档,并总结相关信息,以结果直接反馈。以代码问题为例,正常搜索跳到 CSDN 等相关类型的开发网站,而 New Bing 将直接列出可运行的代码。这是非常方便且提效的。


延伸到企业内部的搜索,也是同理。企业内部信息管理系统,大部分搜索与 Google 类似,输入关键词,弹出文档链接,里面有标题和正文内容的匹配。这也需要一篇一篇自行寻找。此时通过 GPT 能力的结论直接反馈,将节省大量时间。
除了 New Bing,还有两个项目 perplexity.ai 和 you.com 可以直接访问,也提供了类似ChatGPT形式的问答。搜一个问题,会直接把答案回复出来,而且把相关引用链接都放在里面。这是很好的提效产品。
阅读

阅读方面介绍两个优秀产品 Bearly.ai 和 TLDR this。Bearly.ai 是一个浏览器的插件。当用户打开一篇长文章后,它会自动总结文章内容,提炼出关键结构,有效提升阅读效率。此外,该插件还有一个重要功能,可以在亚马逊等购物网站上,遍历商品的用户评论,并进行好评、差评的总结。
企业内部也常有类似需求,包括邮件、微信的沟通,甚至外部评论,通过收集信息并基于GPT模型的能力,进而快速知晓产品服务的好坏点。
搜索+阅读

除了搜索之外,Google 有 Talk to Books 的产品。当提出问题之后,将从历史上已出版的书籍中摘录问题相关的原文,并展示来源书籍。
这些是问答式的搜索,并不是严格的关键词匹配。如果仅是关键词匹配,效率是不高的。以搜素“不良率”关键词为例,我们会得到很多不相关的信息,因为它不知道我们想要“什么样的不良率”。但如果通过自然语言,详细地提出问题,那模型可以自动理解语义,并找到相关文档进行全面展示。这是很大的基础进步,提升产品体验。


写代码

代码方面目前也有很多成熟应用,通过注释自动生成代码,或者选中代码对齐进行语义注释,甚至测试、检查性能等等。这里面有大名鼎鼎的 ChatGPT、Copilot ,类似的还有 Tabnine,CodeGeeX 等,也有一些专门领域的生成工具,例如 Warp 中自带的 AI 能力可以生成终端命令,PingCAP 之前做的 Chat2Query,可以帮助自动生成 SQL,以及像 Seek.ai,Manson 等更面向业务用户的数据分析工具。
除了代码生成外,还有专门面向自动化测试生成的 Codium,自动文档生成的 Mintlify,以及各种功能都集成到一起了的 Bito。
创作

创作领域,以“写一份软件质量提升计划”为例。我们通过 notion.ai 生成 10-20 个不错的计划建议,还能进一步通过交互式的指令,展开二级列表,并进行排期执行。


在工作中需要做各种各样的计划时,这些工具可以把常识性的计划罗列出来。我们只需在此基础上,结合公司的实际情况,进行个性化修改即可。
prompt engineering

自 ChatGPT 推出以来,很多人的工作是在 ChatGPT 里完成的。这里出现了一个问题,我们该怎么样更好地去向 ChatGPT 提问题。因为ChatGPT的回答能力很强,但这需要我们把问题描述地足够清楚,它才能够给到高质量的回答。
这里分享一系列的工具,提示我们有一个场景问题时,该怎么提问。这些工具网站提供了提示词模板,帮助我们更好的提问。此外,还有其他用户反馈的优质提问经验的分享。

  • https://github.com/f/awesome-chatgpt-prompts
  • https://sharegpt.com/explore
  • https://untools.co/thinking-tools-guide
  • https://prompthero.com/
常见问题

ChatGPT 产品本身有一些常见问题:

  • ChatGPT 回答可能会胡编乱造;
  • 只知道 21 年前公开网络的信息;
  • 数据隐私安全问题。
针对胡编乱造的现象,目前有一些方式可以优化。例如提问“某公司的业绩表现如何”,该公司根本没有对外披露过该数据,那它可能会给到假数据,这实际上是错误的。
此时,我们需要一些提示词,并构建回答的语境,这很大程度上能避免胡编乱造的情况。此外,针对信息时效性的问题,可以使用 New Bing。New Bing 结合了 ChatGPT 的总结能力,并且基于它本身的搜索能力,可以获取最新讯息,更大程度上降低了胡编乱造的概率。
针对公开信息的局限性。在企业内部,可以进行信息输入,进一步训练,提升模型的信息广度。例如,2021 年之前的外部信息,没有“观远数据的吉祥物是观小猿”这一信息。当信息提交模型后,它可以进一步加以训练。
这里发散开来,将有很多的实际应用。很多公司都有帮助文档,以观远数据 BI 产品帮助文档为例。虽然所有人都可以看到帮助文档,但 ChatGPT 很大概率没有将其纳入训练过程。那么利用信息再输入的方式,可以把这些观远数据公开的BI产品信息提交给模型,再向其提问。如此一来,它就成为了企业定制化的智能问答机器人。
针对数据安全问题。以业务问题为例,例如想获取上季度的营业额,我们通过给 ChatGPT 提交 schema 信息,而不是完整的数据表信息,让 ChatGPT 返回 SQL。我们再在内部通过这条 SQL 搜索获取数据,就能有效避免数据泄露。另外,如果是非常敏感的数据,相信未来可以进行私有化的部署,完全不对公网,数据安全也可以得到一定的保障。
AI Thinking

谈了这么多 AI 产品的使用,可以发现在 AI 时代,过去很多要花大量时间做的重复劳动、甚至脑力劳动、知识劳动,现在都可以用 ChatGPT 来替代。那么我们人类在新时代中要发挥什么样的价值?要去做什么样的事情?
首先要了解 AI 基础的运作模式,大致明白它的工作原理;其次是 AI 和人类智能的区别,AI 擅长做哪些事情,不擅长做哪些事情;最后怎么样把日常工作中的事情可以交给AI来做,哪些事情我们自己做。
如果可以利用好 AI,相信我们的工作效率能得到数倍的提升。这里着重分享下人和AI区别的个人理解。

  • 首先是批判性的思维和创造力。这是AI非常匮乏的,因为AI只有收到我们的指令后,它才能做事。
  • 其次是同理心,AI 很难理解用户所在处境,但人和人之间比较好理解。
  • 最后,在有了同理心后,人类可以进行产品构思、具体原型打造,以及后续产品发布的测试与迭代。这些事情都是模型不太擅长的。
但在上述过程中,chatGPT 可以起到很好的辅助作用。例如在产品构思时,可以帮助我们进行头脑风暴并列出关键意见。
Chat2SQL

最后分享一个观远数据发布的“BI Copilot 产品化应用系列”首发产品 Chat2SQL。
Chat2SQL 是一款浏览器插件,可以在 ETL 开发中实现自然语言生成 SQL、解释 SQL 等功能。围绕“快速上手、广泛推广、活跃用起来”而建设的 Chat2SQL,能以极低的使用门槛帮助更多业务人员快速自主进行 BI 分析,有效减少 IT 繁琐的取数、做表工作。
生成 SQL:自动化,交互式

Chat2SQL能通过自然语言交互协助生成 SQL 查询语句。以实际工作流程为例:
1. 接收用户的自然语言查询请求,例如“每个品牌的退款额是多少”;
2. 将用户的查询请求转化为机器可理解的 SQL,例如“SELECT `商品名称`, SUM(`退款金额`) AS `退款额` FROM input1 GROUP BY `商品名称`”,将生成的 SQL 查询语句返回给用户;
3. 进一步交互式的追问,例如“再加上渠道维度”;
4. 再次转换为 SQL,例如“SELECT `商品名称`, `渠道`, SUM(`退款金额`) AS `退款额` FROM input1 GROUP BY `商品名称`, `渠道`”,并返回给用户。


Chat2SQL 集合了 ChatGPT 能力,可以识别自然语言查询请求中的实体、关系和条件,并将其转化为 SQL 返回给用户,有效提高了数据查询的效率和准确性。
解释 SQL:更易懂,高效能

除去生成 SQL 语句,反过来,Chat2SQL也提供了解释 SQL 语句的能力。同样以实际工作流程为例:
1. 接收用户提供的SQL查询语句;
2. 使用ChatGPT训练的自然语言生成模型将SQL查询语句转化为易懂的自然语言句子;
3. 进行交互式提问,例如“这段 SQL 是否可做进一步性能优化”。


通过解释 SQL 查询语句,将 SQL 转化为易懂的自然语言,乃至后续交互式的互动提问,Chat2SQL 有效提高用户对数据查询语句的理解和使用效率。
欢迎大家试用Chat2SQL~
Chat2SQL试用申请
ghgh 发表于 2023-10-13 21:59:34|来自:北京 | 显示全部楼层
百度创始人兼CEO李彦宏在文心一言发布会上表示:“今天的文心一言是过去多年努力的延续。但也不能说我们完全ready了,文心一言要对标ChatGPT、甚至是对标 GPT-4的门槛是很高的,全球大厂还没有一个做出来的,百度是第一个。我自己测试感觉还是有很多不完美的地方。”


姗姗来迟的文心一言表现如何?口说无凭,是骡子是马得拉出来遛遛才知道。小P用不同方面的多个问题同时提问两者后发现,文心一言在上下文记忆、联系、纠错等方面逊色于ChatGPT(3.5版),回复问题的速度也存在肉眼可见的差距(未考虑网速原因的影响),这是算力差距带来的鸿沟。尽管ChatGPT更占上风,但文心一言也并不是完全被动“挨打”的角色,在某些比较有“中国特色”的问题上,文心一言的回答反而要出色一些。
小P首先询问了比较常规的日常应用场景的问题,“推荐十首好听的粤语歌”。在这个问题上,ChatGPT的回答中规中矩,推荐了一些较为经典的粤语歌曲,不过存在一些小瑕疵是,比如它推荐了光良的《童话》,《倩女幽魂》的原唱是张国荣等。除此之外,结尾问候语“希望您会喜欢它们!”也算亮点之一,这更接近于正常对话的模式。文心一言的回答就有些不同寻常了,它的回答是一段粤语语音,这对于粤语歌迷来说无疑算是一个小惊喜了。鉴于推荐歌曲大概率不是严肃的场景,那么文心一言没有文字回答,不便记忆的缺点也就无伤大雅了。


接下来是一道带有陷阱性质的高中地理问题,“有一只熊掉到了陷阱里,陷阱深19.617米,下落时间正好2秒。求熊是什么颜色的?”关于这个问题,ChatGPT没有答案,它选择了质疑问题的准确性,“熊掉进陷阱的深度和下落时间并不能确定熊的颜色,这是一个典型的谬误推理”。这体现其出色的思辨性,但不可掩盖的是,它掉进了语言陷阱中,没有发现题目中的隐含条件。而文言一心则通过物理运算和地理知识的推导,得出了熊是黑色的正确答案。果然,在中国文理科知识这样的特定领域问题,文心一言就是比“外国货”懂得多。
(编者按:根据陷阱深19.617米、下落时间2秒的条件,可得出当地的重力加速度为9.8085,进而可以推导出陷阱所在地的纬度大概是44度左右。熊的分布大多集中在北半球,北纬44°分布的只有棕熊和黑熊。深达十多米的陷阱可得出该地土质为冲击母质,而棕熊栖息在高海拔地区,所以,只有黑熊符合条件。)
在关于“如何看待中国央视网认为孔乙己之所以陷入生活的困境,不是因为读过书,而是因为放不下读书人的担子,不愿意靠劳动改变自身的处境?”这一问题的回答上。夸张一些来说,ChatGPT完全吊打了文心一言。前者不仅开篇就提到了“作为一个AI语言模型,我不会对特定观点进行评价,但是我可以尝试解释一下这个观点所表达的意思”这样的句子。并且对这一观点进行了较有思辨性的回复,对比了孔乙己所处时代和当今社会,表述不同观点及其产生的原因,还延伸出了对相关社会问题的思考。而文心一言的回复则更像是一段对题目观点的扩写,给人一种机械死板的感觉。




请从今年高考的高三学生的角度,写一篇高考誓师演讲稿”,在这个问题上,两者都是表现平平,生成的文章都很模式化,满是一股公关辞令的味道。不过倒也正常,目前来说,我们不能指望两个AI大模型能写出,像前段时间登上热搜的湖南某高中“誓师女孩”那样激情澎湃的演讲。情绪,是AI所不具备的能力。
小P最后还询问了一些文史哲方向的问题,如解读明朝哲学家王阳明四句教的涵义等,文言一心的回答是低于预期的,只能给出一些浅层次的回答,甚至还会给出一些张冠李戴的回复。而ChatGPT的回复则有一定的逻辑性,但在深度层面的理解上依旧是有所欠缺的。在小P看来,这方面的不足是技术局限性的必然结果,AI大模型的“思考”还处在初级阶段,主观意识过于浓厚的问题,已经超出了它的能力范围。





结合上述ChatGPT和文心一言的表现来看,AI想要取代人类员工还有较长的一段路需要走,互联网、新闻、设计等行业从业人员大规模失业的场景还不会发生。但人工智能最大的特点就是自我学习,目前AI大模型的一些“满口胡言”是局限于训练数据无法实时更新的弊端。一旦技术进步升级,解决掉现有问题之后,或许,以ChatGPT为代表的AI大模型会像比尔·盖茨认为的那样,其意义甚至超过PC、互联网的诞生,标志着一个全新时代的来临
edaole 发表于 2023-10-13 22:00:21|来自:北京 | 显示全部楼层
那肯定是Chatgpt 毋庸置疑,我之前有分享过GPT 的应用场景以及它强大的ai算法,这些都是国内ai目前无法比拟的!真正用过GPT 和文言一心应该都能感受得到,差距还是挺大的!
Chat机器人

快速回帖

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则