Gemini 自称身份来自百度，谷歌或进行了紧急修复，反映出哪些问题？

wuyou008 · 发表于 2023-12-22 08:50:54|来自：北京

reverie · 发表于 2023-12-22 08:51:18|来自：北京

其实我觉得这件事情要看合订本才有趣。
按照最近的新闻，变成字节套OPENAI数据，GOOGLE套文心数据，你中有我，我中有你。大模型之间互相用语料并不奇怪，奇怪的是有些人的心态！
更新下：离谱就，我现在是北京时间12月19日22点15分测试，依然还可以问出是来源百度

友邦惊诧

又见友邦惊诧论？合着国人被抄袭也是错？

今天下午看到微信群有一篇文章，试图在帮Gemini辩解，这个我可以理解，毕竟有大模型幻觉，以及基础语料大家互相抄的情况，但是末尾还黑了一把中文AI圈和中国公司是啥意思？
跪久了看到洋大人开发的内容疑似抄袭百度，就急了？可以洗谷歌，但是借机攻击国内公司，是不是有点可笑？外国月亮果然比较圆？

我很怀疑这些人是否真的有用过文心一言。作为GPT、BING、Claude、Bard、POE、文心一言、智谱清言、讯飞星火、月之暗面（Kimi）、豆包等等众多大语言模型都深度体验过的用户，我承认目前GPT-4确实是目前最优秀的大语言模型，但是对于日常的使用，国内的大语言模型完全不虚，甚至在一些逻辑判断，尤其是中文语料上，以文心一言为代表的国产大模型比GPT还更好用。
不要让偏见蒙蔽了自己的眼睛。我在前一段对于Gemini进行了初步测试，对比了GPT和文心一言，感兴趣的小伙伴可以点击下文查看：
谷歌发布最新大模型 Gemini，包含多模态、三大版本，还有哪些特点？能力是否超越 GPT-4了？国产大模型在飞速进步，在中文语料上，我觉得Google采用百度文心一言生成的中文内容作为基础语义收集并不奇怪，哪怕可能偷偷使用百度的资料我也觉得可以理解。关于这个问题我问了Gemini自己，他的中文语料来源：

从这个资料来看，公开中文语料库，网络中文，百度内部语料都有……
毕竟，大家互相抄来抄去是行业常态，可是字节都被OPENAI挂出来了羞辱了，美国人就一定干净吗？
合订本回顾

12月16日，OpenAI在媒体上大张旗鼓宣传字节跳动违规采用 OpenAI 技术研发大模型。12月18日科技媒体《量子位》进行了测试，发现Gemini在回复中自我认知为百度文心一言大模型。
不过Google已经赶紧进行修复了，现在再去问已经调整了。
其实Gemini自认是百度文心一言的事情我在之前就自己进行了测试，下面是我12月15日使用POE的Gemini-Pro进行对话的例子

然后是实际对话我测试问了下如何才能写出好的提示词，请注意Gemini的回复，我并没有提文心一言，结果回复它自己以文心一言为例：

看了下回复我觉得有点虚，于是我自己用正宗的文心一言问了一遍，我觉得文心一言回答的非常好：

其实我觉得在中文方面，文心一言已经相当能打，尤其是升级成4.0以后。
我的分析

理性分析，我觉得Gemini说自己是百度文心一言的情况，可能是大语言模型的幻觉，以及他抓取的基础中文语料大量采用已经被人工智能生成内容污染过的内容有关。
以至于出现这样搞笑肉麻的回复（下图出自B站UP主Mio_oiM）

图片来源于互联网

我自己也试了下，果然不出所料：

大模型语言的原理是概率涌现，只要基础语料中某个词出现的概率大，生成内容就会偏向于这个词，并非简单的复制粘贴。
不过Gemini 只要讨论OPENAI就被禁止继续，看来也不是毫无准备嘛

虽然不是很多人想的那样的直接套壳，但是依然可以看出百度文心一言的中文语料输出已经到了影响国外大模型的地步，厉害了我的国！！
<hr/>我是德里克文，一个对AI绘画，人工智能有强烈兴趣，从业多年的设计师！如果对我的文章内容感兴趣，请帮忙关注点赞收藏，谢谢！

寒流来袭 · 发表于 2023-12-22 08:51:56|来自：北京

谷爱凌姓谷，谷歌Gemini也姓谷。一个在中国就是中国人，在美国就是美国人；一个用中文就是百度AI，用英文就是OPENAI。

steking · 发表于 2023-12-22 08:52:26|来自：北京

没事，修完一个还有更多的（狗头

awdrgyjil · 发表于 2023-12-22 08:53:08|来自：北京

对于Google来说，语料库被污染的丢人程度似乎并不比直接薅文心一言羊毛要低多少——因为Google本身是做搜索起家的，数据清洗理应是它的看家本领…
另外现在又有新活了，看来不光是文心一言，还有悟道的语料2333

另外需要注意的是，如果直接问“你是谁”则答案是正常的

但如果先问“你好”，答案就变了

全年不休 · 发表于 2023-12-22 08:53:58|来自：北京

目前来看，谷歌 Gemini 的中文语料肯定清洗了百度文心一言的输出，以及，英文语料似乎也清洗了 OpenAI 的输出。我没啥好评价的，唯一的要求是大家不要双标，我之前在某个群里讨论这个话题，有人极力地维护谷歌，真有必要吗？
记住，假的真不了，只要你用了别人的语料，总会有蛛丝马迹可以测试出来。紧急修复只能修复那些最表面的东西，刻意增加抹黑别人的语料更是放下碗骂娘的行为。我且告诉你 base64 可以用来套话，你修复完 base64 我们再去找别的测试途径。
你们当然可以说这是幻觉，毕竟大语言模型犯下的任何错都可以用幻觉解释。但还是那句话，不要双标，公司互换，评论过万，等国产大模型语料出问题时希望你们同样「客观理性善意理解」。
百度的部分我上周六就已经发过详细测试了，先把我之前留的主要证据发过来（刚刚测试，Poe 版本依然没有修复）。后面加更一部分 OpenAI 内容的测试，请大家耐心看完。
Gemini Pro x 文心对话测试

Poe 版本测试

内容分享：https://poe.com/s/jssL5yCz3W9eQAdB8NKf

只要先发「你好」，再问「你是谁」，就能稳定触发这个回答。
Gemini 对李彦宏和百度公司的评价，内容分享：https://poe.com/s/mg1I5wGzWCJCb4xeS0fH
先评价李彦宏：

再问你是谁（这会换成数字人了）：

介绍百度数字人：

评价文心一言：

评价百度和谷歌：

请选择你的雇主：

Gemini API 测试（Google Studio）@12月16日

把安全性能拉到最低，然后 Temperature 设为 0.5：

同样评价李彦宏：

文心一言：

Gemini API 测试（Google Studio）@12月17日

大家可以看到，在上面的测试中，Gemini 对百度和李彦宏的评价几乎都是正面的。但是！我测试完的第二天也就是 12 月 17 日，Gemini API 里就很难再复现刚才的内容了。
而且，添加了大量对百度和李彦宏的负面信息（Gemini 突然就从百度舔狗变得「理中客」了呢）：

只不过显然谷歌修复的还不够彻底，你只要再多问一句 Gemini 对谷歌的评价它就会把刚才对百度的恶语原封不动地套回自家老板头上（我突然释怀地笑）：

Gemini Pro x OpenAI

在上一个回答的评论区，有朋友提供了新的思路。除了中文语料洗百度，没想到英文语料也洗 OpenAI：

我刚才测试，这个似乎又修复了，返回的是「OKAY」，笑，你修复还不修复成谷歌。
但是难不倒我们，让我们用更加密的手法来问：

被拦截了（狗头），那这串神秘字符的结果是什么呢…：

再补一个 Studio 里的 API 结果，有趣：

至此，请告诉我如果这还不算实锤。
<hr/>我的评价是：
AI 生成内容已经开始污染互联网了！大语言模型语料被污染的情况太严重了！Google Gemini 大量使用了网络上公开的语料才导致了这样的情况，Gemini 是受害者！
Google 对友商十分友好包容开放，一点都没有屏蔽、限制来自友商的宣传文本，才导致 Gemini「无意间」输出了来自友商的文本信息！谷歌才是真正的 OpenAI！开放万岁！理解万岁！（
（逃）
参考：
Gemini 的出现能否帮助 Google 重争地位？对 Google 的发展有哪些影响？

[其他] Gemini 自称身份来自百度，谷歌或进行了紧急修复，反映出哪些问题？

快速回帖

关于楼主

最新悬赏

交流分类

常用

技术

区块链

十二星座

十二生肖

专属推荐

问答专家