如何看待华为云盘古登顶《Nature》正刊?

[复制链接]
o111 发表于 2023-7-31 22:09:03|来自:北京 | 显示全部楼层 |阅读模式
登顶这个正刊到底是个多厉害的成就
全部回复5 显示全部楼层
Adamspz 发表于 2023-7-31 22:09:51|来自:北京 | 显示全部楼层
去年,苹果搞个屎上雕花的“灵动岛”,霸榜所有平台热搜好几天,并且好评如潮!
今年,华为盘古大模型登上nature正刊,成果被欧洲气象局背书,知乎还一大堆喷噱头、营销的……
workldf 发表于 2023-7-31 22:10:34|来自:北京 | 显示全部楼层
我在另外一个回答中说人工智能领域发Nature正刊很“罕见”,做AI的“基本想都不要想”,然后评论区很多人质疑这种说法。
华为云盘古气象大模型研究成果在《Nature》正刊发表,相比传统数值预报提速一万倍以上,还有哪些亮点?我看了他们举的例子,提到的最多的就是deepmind的工作,这主要是他名气比较大,被关注得多,但不知道有没有想过计算机领域每年要产出多少成果,然后拿登上了nature的文章跟这个总数比一比,看看能占多少,看看是不是“罕见”。当然还可以举出一些例子,我是说罕见,而不是没有,但是这个数量相比于Nature每年文章的总数,或者相比于计算机/AI领域的文章数量,说他“罕见”真不是夸张。
我依然持有这个观点:人工智能领域就是很难发nature正刊。nature重点在于基础科学,或者成果对社会和人类的认知起到一定颠覆的,AI、大模型这种偏应用的工科想往nature上发难如登天,不管你的成果在领域内多牛,因为你的领域根本就不在人家的scope里面。结合了基础学科,或者做AI for science才有机会,这篇大模型的也是搭上气象领域的车。
我这样说可能就更清楚了,你可以找100个做计算机、做AI的人去问,教授、导师、硕士、博士,多牛的都可以,然后看看有没有超过2个人敢想自己能在nature上发文章。当然我指的是本行计算机的,对于那些本行是基础科学,然后把AI、神经网络当作工具用于解决原领域的问题的不在我说的范围内,我说的“想都不要想”也就是这个意思。每个领域有每个领域自己的顶会、顶刊,做计算机想的高水平期刊会议也是诸如TPAMI、IMLR、CVPR、ICCV这些本领域的,而跟nature就不是一个领域的,这是事实。另外,我说的是“罕见”,而不是没有。至于大家举的一些例子,其中很大部分就是结合了脑科学、生命科学或者生物技术的,所以也并不冲突。
另外,有的人不喜欢华为,然后好像什么东西沾上华为都不能说了,我还是觉得大家关注这个科研工作本身就好,不至于因为不喜欢一家公司,连这家公司的人做的一点工作都要讽刺。
mjfh 发表于 2023-7-31 22:11:30|来自:北京 | 显示全部楼层
气象预报我不太懂,不过华为的盘古大模型我一直有关注,再发一次吧:
之前我一直说,由于种种原因,国内的大模型研究一直更偏向B端应用,华为的盘古大模型也是如此。
华为投的这篇《Nature》,重点就是AI大模型在气象预报领域的成果。
我个人看下来,大致有三方面看法:

1、华为这篇正刊最具突破性的点在于:这是业内首个精度超过传统数值预报方法的AI模型。
我们都知道,现有的气象预报并不是100%可靠,而且时间越长误差就越大。
过往有很多研究,试图借助AI技术优化气象预报的速度和精准度。
但在此之前,所有的AI气象预报实际表现几乎都不如传统数值预报。
而华为云盘古大模型的表现着实优秀,文章中的图很多,我先放比较直观、容易理解的部分:


蓝线是EC(业内比较主流的数值预报方式),红线是盘古的预测,黑线是台风实际走势;
一眼就能看出来,盘古大模型的精度明显超越传统数值预测,比较准确的预判了台风走向。

类似的图很多,比如这些图都是盘古大模型和传统数值预测的对比结果:


实际上不止文章中这些,今年5月台风“玛娃”走向受到广泛关注。
中央气象局表示,华为云盘古大模型在“玛娃”的路径预报中表现优异,提前五天预报出其将在台湾岛东部海域转向路径。



红线是盘古,蓝线是EC传统数值预测,误差越小越好

可以看到,盘古大模型的成果是很扎实的,也难怪《Nature》审稿人给出了很高的评价:


2、从技术角度看,盘古大模型给出的思路大有潜力可挖。
这方面我直接引用下相关报道,说的比较清楚了:
华为云盘古大模型研发团队发现,AI气象预报模型的精度不足主要有两个原因: 第一,原有的AI气象预报模型都是基于2D神经网络,无法很好地处理不均匀的3D气象数据; 第二,AI方法缺少数学物理机理约束,因此在迭代的过程中会不断积累迭代误差。 为此,华为云的研究人员提出了3D Earth-Specific Transformer(3DEST)来处理复杂的不均匀3D气象数据,从而打造了盘古气象大模型。 其主要思想是使用一个视觉transformer的3D变种来处理复杂的不均匀的气象要素,并且使用层次化时域聚合策略,训练了4个不同预报间隔的模型(分别为1小时间隔、3小时间隔、6小时间隔、24小时间隔),使得预测特定时间气象状况的迭代次数最小,从而减少迭代误差,也避免了由递归训练带来的训练资源消耗。
华为云盘古大模型登Nature:秒级完成气象预测,速度快10000多倍_腾讯新闻具体的架构图是这样:


我个人比较关注的是这点:
为了训练每个模型,研究人员使用1979-2021年的气象数据,以小时为单位采样,训练了100个epoch。 每个模型需要在192块V100显卡上训练16天。 事实上,即使经历100个epoch,这些模型依旧没有完全收敛。 也就是说,在计算资源更加充足的情况下,AI预报的精度还能够进一步提升。
我个人认为,长期看这一点的重要性丝毫不亚于精度提升。
考虑到这篇文章近年来中国科技公司首篇作为唯一署名单位发表的《自然》正刊论文,只能说菊厂的研发投入确实令人佩服。

3、长期看国内AI大模型发展的核心瓶颈,我认为是算力。
这不是我第一次提出这个观点了,但是看了华为这篇文章后感受更加深刻。
盘古大模型的气象预报算法,训练了4个模型,每个需要192块V100显卡训练16天。
这对应的算力需求已经不小了,国内很多中小规模企业根本拿不到100块以上的V100/A800。
而且从文章内容看,AI预报的精度还能进一步提升。
没有继续做,是不想做么?恐怕不见得。
虽然外人并不清楚华为手里究竟有多少算力(毕竟自家有昇腾),但华为需要用到算力的地方太多了,能腾出来多少给气象预报等科研领域恐怕难讲。
推而广之,国内很多企业和科研院所,可预见未来内对AI算力的寻求有增无减。
我一直说,半导体产业是关乎未来生死存亡的头等问题。
好在近些年国内半导体产业链发展明显加速,我个人对国内的产业升级满怀信心,希望未来发展一切顺利。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
ses 发表于 2023-7-31 22:12:09|来自:北京 | 显示全部楼层
华为粉:
小心翼翼地在知乎上提问:如何看待华为云盘古登顶《Nature》正刊?
登顶这个正刊到底是个多厉害的成就?
理智地探讨这项研究的价值和意义,列举出文献,生怕用词不够严谨。
果粉:
IPhone的静音键,是整个手机界最牛的设计,没有之一!!
这个静音键巨好用,关键时刻能决定生死(破音)!!!


众所周知,黑华为才有流量(团建也是流量):


怎么说呢,华为确实是垃圾,毕竟华为的静音键不能决定生死。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
yyp 发表于 2023-7-31 22:12:34|来自:北京 | 显示全部楼层
自此,Nature跌落神坛,沦落为野榜、野论文!
Nature要想自证清白,唯一的方式是马上发表一篇小米的论文,那么自其刊登小米论文起至下一次刊登华为的文章为止,Nature还是业界权威之一。

快速回帖

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则