腾讯为什么没有率先搞出 ChatGPT 这样的人工智能AI应用呢?

[复制链接]
yym110 发表于 2023-7-28 20:45:27|来自:北京 | 显示全部楼层 |阅读模式
腾讯为什么没有率先搞出 ChatGPT 这样的人工智能AI应用呢?
全部回复5 显示全部楼层
小松520 发表于 2023-7-28 20:45:54|来自:北京 | 显示全部楼层
实际上这才是常态,非共识才能给新技术路线/新科技明星企业诞生的空间。
在chatgpt出现以前openai的路线本来就没有成为共识。假如这条路线成为共识了,不说国内这些巨头,起码谷歌是会坚定all in的吧。
然而并没有,Google的bard到目前为止还算不上理想。大模型里面除了技术路线,需要太多的工程细节优化和前期投入了,Google赶工效果一般基本也侧面印证了没有在这个方向上重点投入。
所以腾讯没有投入也没什么好奇怪的,腾讯在自己的主业里都没有预见到原神这种超重投入、极端内容导向的路线的成功,你还要指望它预见大模型的兴起,有点太强人所难了。
zeroera 发表于 2023-7-28 20:46:18|来自:北京 | 显示全部楼层
很多人一直有一个误解,就是觉得有人有钱,就能把东西做出来,实际生活中的情况比这复杂的多。否则论人,钱,数据,硬件,随便怎么算,ChatGPT都应该是谷歌第一个做出来。谷歌有最优秀的人才,有的是钱,最多的数据,还有自己的TPU集群可以用来以极低的成本训练…谷歌发明了Transformer,BERT,那怎么谷歌没抢到先机呢?
技术的发展原本就有很强的随机性。一个突破性的进展,除了钱必须到位,还要有和目标合拍的team,舍得投入的投资人,对路线无比坚定不撞南墙不回头的领导…所有这些硬的软的条件都具备了,还得保证走的是正确的路线,才会产生那个突破。如果说各种客观条件还可以争取一下,那到底哪条技术路线是对的,那就纯粹是撞大运了,没搞出来之前,没人知道。如果谷歌知道会进化到这个程度,他早就all-in了。
但问题是要有一个土壤去培育足够多的种子,就像上面说的,要产生突破性进展,要钱,要人,要团队文化,要leader。这样的土壤同时培育N粒种子,可能也就能命中一粒。但如果没这个土壤,你看到人家地里发芽了,说我找一片沃土,把种子拿来开始培育那行不行?或许最终也是能发芽的,但这个含义就完全不一样了。
每一次技术的突破性进展都是这样。计算机的发明,也是全世界范围内,美国,英国,德国同时有团队研究。光是美国就有两三个团队,英国有两三个团队,德国有Z3。最终ENIAC脱颖而出,但是回顾历史,ENIAC的成功,是有了很多其他团队不具备的条件。应该说,没有ENIAC,计算机也是会被发明出来的,可能晚两年。如果没有二战,可能会早两年。
ChatGPT也是一样,全世界同时有那么多大模型团队研究了多年了,应该说产生突破是可以预见的。腾讯,百度都有在研究大模型啊,人家也没闲着,至于为什么腾讯百度谷歌Meta等等一长串都没有搞出来,那原因就复杂了。某些公司,比如谷歌,应该说是运气问题,但很显然有些公司则是钱,人,团队,领导等条件不到位导致的,还没有比拼运气的资格哈。
可以看看这本书,写乔布斯传和爱因斯坦传的传记作家写的,可以看看技术突破都是怎么产生的,以史为鉴嘛:
创新者:一群技术狂人和鬼才程序员如何改变世界
版版有王暴 发表于 2023-7-28 20:47:13|来自:北京 | 显示全部楼层
回答下许多知友提到说我们聊天记录会不会被用来训练模型
首先,微信有没有保存用户数据我不知道,会不会对用户数据动手动脚我也不知道。但我知道大概率不会用我们的聊天记录做大模型预训练
因为原因也很简单,我们的对话其实挺脏的。说的内容也没什么营养,甚至充满黄暴。我训模型我肯定不会用这个数据。事实上我在训练模型的时候,微博 豆瓣这种一点干货都没有,而且经常会有乱七八糟的内容污染模型。比如悟道语料豆瓣来源里有一条“我想要钱钱钱(以下钱重复512次)”这种会教模型重复解码的负优化,而且很多都是闲扯毫无营养甚至语法和标点都是错的,这种语料一万条不如维基语料一条。还有很多语料很多,就那么几个字拿来训来太浪费训练资源了而且生成就几个字影响用户体验。
诸如此类的语料我在清洗悟道豆瓣来源的时候发现了很多,所以我干脆就丢掉所有豆瓣来源的语料省心省事。
而我们平时在QQ群微信群的聊天,从模型训练的角度来看质量还不如微博豆瓣。当然有某些专业性强的兴趣群的语料质量也不错,比如苏神的“粉丝群”经常会有回答程序问题和深度学习讨论,这种语料也算质量不错。但清洗起来也很麻烦,比如说群聊经常有语序不搭乱七八糟,而且两伙人各聊各等问题。清洗成适合模型使用的语料所需要的时间精力可能不比手动标注好多事。
还有我国在舆论方面是有一定维稳需要的,对错暂且不论,QQ群高强度键政是众所周知的,考虑到配合维稳的落地实际这种高强度建政的语料更是不愿意使用的。。。
综上所述我认为微信和QQ聊天记录不大可能称为训练语料来源。相比较聊天记录,微信新闻这种全是广告的语料甚至都算不错了。
libobo 发表于 2023-7-28 20:48:10|来自:北京 | 显示全部楼层
因为腾讯真不是微软,微软敢给OpenAI投10亿刀,去年它们亏了5亿刀也没撤资,换成腾讯财报那么糟糕的早t掉了,开发者多租一台服务器都是罪过,怎么能搞出像样的玩意呢?
至于有人意淫chatGPT是光刻机二代的,我只能说你说的都对
七笼猪 发表于 2023-7-28 20:48:43|来自:北京 | 显示全部楼层
因为腾讯的企业文化是微创新,不是创新。

快速回帖

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则