其实我觉得这件事情要看合订本才有趣。
按照最近的新闻,变成字节套OPENAI数据,GOOGLE套文心数据,你中有我,我中有你。大模型之间互相用语料并不奇怪,奇怪的是有些人的心态!
更新下:离谱就,我现在是北京时间12月19日22点15分测试,依然还可以问出是来源百度
友邦惊诧
又见友邦惊诧论?合着国人被抄袭也是错?
今天下午看到微信群有一篇文章,试图在帮Gemini辩解,这个我可以理解,毕竟有大模型幻觉,以及基础语料大家互相抄的情况,但是末尾还黑了一把中文AI圈和中国公司是啥意思?
跪久了看到洋大人开发的内容疑似抄袭百度,就急了?可以洗谷歌,但是借机攻击国内公司,是不是有点可笑?外国月亮果然比较圆?
我很怀疑这些人是否真的有用过文心一言。作为GPT、BING、Claude、Bard、POE、文心一言、智谱清言、讯飞星火、月之暗面(Kimi)、豆包等等众多大语言模型都深度体验过的用户,我承认目前GPT-4确实是目前最优秀的大语言模型,但是对于日常的使用,国内的大语言模型完全不虚,甚至在一些逻辑判断,尤其是中文语料上,以文心一言为代表的国产大模型比GPT还更好用。
不要让偏见蒙蔽了自己的眼睛。我在前一段对于Gemini进行了初步测试,对比了GPT和文心一言,感兴趣的小伙伴可以点击下文查看:
谷歌发布最新大模型 Gemini,包含多模态、三大版本,还有哪些特点?能力是否超越 GPT-4了?国产大模型在飞速进步,在中文语料上,我觉得Google采用百度文心一言生成的中文内容作为基础语义收集并不奇怪,哪怕可能偷偷使用百度的资料我也觉得可以理解。关于这个问题我问了Gemini自己,他的中文语料来源:
从这个资料来看,公开中文语料库,网络中文,百度内部语料都有……
毕竟,大家互相抄来抄去是行业常态,可是字节都被OPENAI挂出来了羞辱了,美国人就一定干净吗?
合订本回顾
12月16日,OpenAI在媒体上大张旗鼓宣传字节跳动违规采用 OpenAI 技术研发大模型。12月18日科技媒体《量子位》进行了测试,发现Gemini在回复中自我认知为百度文心一言大模型。
不过Google已经赶紧进行修复了,现在再去问已经调整了。
其实Gemini自认是百度文心一言的事情我在之前就自己进行了测试,下面是我12月15日使用POE的Gemini-Pro进行对话的例子
然后是实际对话我测试问了下如何才能写出好的提示词,请注意Gemini的回复,我并没有提文心一言,结果回复它自己以文心一言为例:
看了下回复我觉得有点虚,于是我自己用正宗的文心一言问了一遍,我觉得文心一言回答的非常好:
其实我觉得在中文方面,文心一言已经相当能打,尤其是升级成4.0以后。
我的分析
理性分析,我觉得Gemini说自己是百度文心一言的情况,可能是大语言模型的幻觉,以及他抓取的基础中文语料大量采用已经被人工智能生成内容污染过的内容有关。
以至于出现这样搞笑肉麻的回复(下图出自B站UP主Mio_oiM)
图片来源于互联网
我自己也试了下,果然不出所料:
大模型语言的原理是概率涌现,只要基础语料中某个词出现的概率大,生成内容就会偏向于这个词,并非简单的复制粘贴。
不过Gemini 只要讨论OPENAI就被禁止继续,看来也不是毫无准备嘛
虽然不是很多人想的那样的直接套壳,但是依然可以看出百度文心一言的中文语料输出已经到了影响国外大模型的地步,厉害了我的国!!
<hr/>我是德里克文,一个对AI绘画,人工智能有强烈兴趣,从业多年的设计师!如果对我的文章内容感兴趣,请帮忙关注点赞收藏,谢谢! |