[其他] 谷歌 DeepMind 通过 AI 工具 GNoME 发现 220万种新材料,具体情况如何?有何影响?

[复制链接]
woaini8312 发表于 2023-12-8 06:56:55|来自:北京 | 显示全部楼层 |阅读模式
从新能源汽车电池到太阳能电池,再到计算机芯片等诸多领域,一旦有新材料发现,无疑可加速技术层面的突破。不过,新材料的研发通常需要科学家们花费数月甚至数年的时间进行反复试验和验证。然而,谷歌旗下DeepMind近日公布的一项研究或将极大加快新材料在众多科技领域的应用速度。
谷歌DeepMind的研究团队通过人工智能工具“材料探索图形网络(以下简称GNoME)”发现了多达220万种理论上稳定,但绝大部分在实验上尚未实现的晶体结构,这一成果于11月29日在顶刊《自然(Nature)》杂志上发表。
GNoME发现的晶体结构数量是科学史上发现的此类物质数量的45倍以上,业内认为,这项技术为可再生能源和先进计算芯片等领域的发展提供新路径。
全部回复5 显示全部楼层
stefanie 发表于 2023-12-8 06:57:45|来自:北京 | 显示全部楼层
看到一堆回答吹DeepMind实在有点崩不住,同为AI+材料计算的科研人员,分享一下我的看法,最后也会分享下领英圈内科研大佬们的看法.
先说结论:这篇文章大概是npj computational materials(计算材料领域顶刊)的水平,最多可以勉强够得上Nature Communications,没有什么创新点或者新的内容,唯一的亮点就是弄了个很大的材料数据集(但是这个亮点也充满槽点,等下再说)。能发Nature全靠的是Google DeepMind这块招牌。我稍后会解释为什么这种堆数据量和算力没什么意义。
这篇文章大概是做了这么个事情:他们从Materials Project(一个常用的开放材料数据库)的69k数据集出发,结合图神经网络和主动学习,用第一性原理算了一堆新材料的能量(正文里没说数据集的大小,看补充材料应该是在10^8的量级)。结论就是说用了他们的大数据集模型的表现变得很好
文章的一个卖点是声称发现了一堆新材料,这也是很多行外人容易被唬到的点,也是在很多报道(包括像经济雪人这种级别的杂志)里被曲解的点。首先所谓的新材料,不过是新的假想材料,这个你随便用一个材料结构生成软件想生成多少就生成多少。但是这种新结构不一定是理论上稳定,更不代表实验上能合成,而这篇文章关注的是理论上的稳定新材料。注意这里的稳定性不是材料的内禀性质,也就是说一个材料稳不稳定不是完全由它自身能量决定,而还取决于其他材料的能量。也就是说,当更多的材料被考虑进来的时候,更新后的结果会导致以前被认为是最稳定的结构其实就有可能不是能量最低最稳定的。原文里提到了220万和38万两个数字,前者可以理解成“如果我们以Materials Project数据库为基准,那新的数据库里有220万材料结构比基准数据库里的最稳定的材料还要稳定”(如果不好理解的话可以忽略这个数据);而38万这个数字,才是真正有意义的数据,表示的是最新的数据库里有38万种新的稳定材料。
另外值得一提的是,这篇文章考虑的理论上的稳定,还是非常简化情况下的理论情况,即在绝对零度下(-273摄氏度)的稳定性。实际上材料的稳定性是由自由能的决定,随着温度升高,构型熵振动熵等会对自由能有很大影响,这些温度效应在理论上是能够处理的,只不过是复杂了一点。如果做到这些,这篇文章至少还更有实际意义一些。
像这篇文章这样单纯堆DFT数据,说实话哪个有资源的计算组都能做,无非就是普通的高通量计算加点主动学习而已。最后的发现也毫无novelty可言。如果这篇文章堆完数据然后对数据集开放倒也多多少少对整个社区有点贡献,但关键是最后开放的数据集仅仅是稳定材料的那部分数据(占总数据不到1%)。这样基本上就不能复现文章里对机器学习模型泛化性能,以及不同模型之间的比较。Nature本身就对数据开放性有严格要求,结果这文章直接绕过了,编辑居然也放行。
与Google形成对比的是同行Meta的做法,他们的Open Catalyst Project从2020年一年一个新的催化材料数据集,量大又开放获取。另外Open Catalyst Project同样是堆大数据和大算力,但他们的文章也只是发在了ACS Catalysis上,这也是为什么我前面说这篇文章大概就是npj computational materials的水平。
另外再针对数据集的novelty说多一句:这篇文章堆出来的数据也不属于什么稀缺数据或者重要数据,而是很基本的体系能量数据,而没有任何一点其他的物性(比如band gap带隙, 弹性系数,吸附能等),而这些物性数据才是材料研发领域更缺乏和重要的数据,获取它们也需要更多的成本。早在2020年,Open Catalyst Project就已经有了同样量级的能量数据(而且全部开放获取),最近几年Meta已经在关注别的更重要的物性数据,而Google还在玩别人三年前玩剩的[摊手]。
其实针对这文章,包括我和一些做计算的同事都有类似的看法(即文章还不错,可以发业内顶刊,但是发Nature就离大谱了;另外文章也有些科学上的问题),但一般大家也不会公开指出,毕竟留一线日后好相处(所以我才上知乎吐槽而不是在领英发post)。
但圈内大佬就不太一样。下面是圈内领英里看到的一些评论:
Shyue Ping Ong,加利福尼亚大学圣迭戈分校教授,Materials Project及Pymatgen的主要发起人之一。他的post大概就是欲抑先扬,说了模型表现很好,但是通篇毫无创新,且数据不开放(违背了科学界的FAIR准则,即科学数据的可发现(Findable)可访问(Accessible)可互操作(Interoperable)可重用(Reusable)),最终导致科学结果不可复现(引用了最近的超导界的造假丑闻)。


另一个是Kamal Choudhary,美国国家标准与技术研究院staff scientist,npj computational materials副主编,JARVIS计划的发起人。他直接吐槽发nature不需要科学创新,只要像Google一样堆算力就可以,同样吐槽了不开放数据等同于科学造假。


其他一些大佬们的评论。已经有人联系Nature编辑打算写评论文章了。




对了,同日上线还有另一篇相关的Nature文章,这篇大概是是基于Materials Project和Google DeepMind的数据,用自动化实验合成了几十个新材料。这篇也在twitter上被伦敦大学学院的Robert Palgrave教授质疑实验结果有严重问题,不适合发表。嗯我不太懂实验就不发表看法了…



xzshengli 发表于 2023-12-8 06:58:32|来自:北京 | 显示全部楼层
创新中有个常见的套路:叫做先射箭,后画靶子。
比如3M的Post-it(便利贴,报事贴)的发明就是这样的例子:
3M公司的史宾塞.席尔佛(Spencer Silver)想要发明一种强力胶,但是开发过程中,屡屡失败,还搞出来的副产品粘性很低。
不过这个副产品他也没有舍得随手扔掉。
四年后的一个周日,他的同事Arthur Fry在教堂唱诗歌,夹了个小抄在书上,方便看歌词,不过小抄老是松开,他立刻想到了Spencer发明的这个粘性很低的黏贴剂。
从此,这个四年无人问津的副产品,成了便利贴的原型,在1980年开始,3M开始大量生产Poit-it,而这距离这个副产品第一天问世,已经过去了10年。

同样的道理,AI工具GNoME现在的工作,就是大批量预测稳定结构的新材料,这些新材料具体有什么用,其实是不明确的。
但是能够把分子结构预测出来,并且生产制造出来,这些新型的材料就是一个巨大的宝库。
这比人类的效率提升的太多了。未来的材料应用场景会不断的出现,人类所需要做的工作就是,在这个AI预测的材料模型宝库中去“淘宝”就可以了。
因此,AI在材料分子结构预测上的工作带来了惊人的220万新材料,不吹不黑的说,绝大部分新材料短期内还看不到多少可以落地到应用场景,但是从长期来看,这将是材料研究上的一种能力飞跃。
因此,AI技术在材料研究和药物开发上带来的助力,随着时间的推移,将超乎许多人的想象。
zgjk 发表于 2023-12-8 06:59:21|来自:北京 | 显示全部楼层
颜宁:幸好我抢先一步。。。。。。
bibi_im286 发表于 2023-12-8 06:59:34|来自:北京 | 显示全部楼层
这是DeepMind在材料领域开发的新的人工智能工具,此前DeepMind曾开发过用于蛋白质结构预测 的AlphaFold、遗传病筛查工具 AlphaMissense 和气象预测大模型GraphCast。
现在又来了一个发现/预测新材料的AI工具——GNoME(graph networks for materials exploration,用于材料探索的图网络)。生化环材都来一遍是吧。
根据11月29日发表在《自然》杂志上的论文,使用名为 GNoME 的AI工具识别出的理论上稳定但实验上未实现的新材料比科学史上发现的此类物质的总数量还要多 45 倍以上。
两篇相关文章以及Github项目地址:

  • https://www.nature.com/articles/s41586-023-06735-9
  • https://www.nature.com/articles/s41586-023-06734-w
  • https://github.com/google-deepmind/materials_discovery


下图是GNoME的总体框架,试着结合原文对基本流程进行一下分析(不懂材料,如有错误请指出)。GNoME使用了两个框架来生成和筛选候选材料。


第一个框架中,在生成阶段。通过对现有晶体的修改来生成结构候选材料,为了多样化的候选结构,采用了一种新的对称性感知的部分替换(symmetry-aware partial substitutions,SAPS)方法和随机结构搜索。研究人员通过调整离子替换概率显著增加了替换集中的数量,在主动学习过程中产生了超过 10^9 的候选物。
在筛选阶段。生成的结构通过GNoME使用基于体积的测试时增强方法和通过深度集成的不确定性量化方法进行过滤。最终,这些结构被聚类,多晶体被排名以便使用密度泛函理论(density functional theory, DFT)进行评估。
在第二个框架中,组成模型可以在没有结构信息的情况下预测结构的稳定性。输入数据是简化的化学公式。由于通过氧化态平衡生成的方法往往过于严格(例如,会忽略 Li15Si4 这类),所以采用更宽松的限制,使用 GNoME 对结构进行过滤,并初始化 100 个随机结构,以便基于AIRSS(一种基于DFT预测结构的方法)进行评估。
在这两种框架中,模型提供能量的预测,并且基于相对稳定性(分解能量)选择一个阈值。评估是通过VASP( Vienna Ab initio Simulation Package)中的 DFT 计算进行的,研究人员综合衡量所发现的材料中的稳定材料的数量,以及跟材料项目相比,其预测的稳定材料的准确度(命中率)。



DFT 预测材料的定向合成结果

GNoME项目强调了如何利用人工智能工具缩短传统的实验移植过程的周期,并有可能提供改进的产品和流程。GNoME 已经新发现了 220 万种晶体,这相当于约 800 年的知识价值;其中最稳定的 38 万个已提交到研究界数据库。
谁也说不准这些候选材料中是不是有可能存在用于开发未来革命性技术的材料,比如从太阳能电池到超导体等领域。只能说DeepMind的暴力法总是给很多传统玩法来个降维打击。
sunjie0429 发表于 2023-12-8 07:00:07|来自:北京 | 显示全部楼层
发现220万种新材料!谷歌DeepMind最新研究成果再引轰动:人工智能模型GNoME利用机器学习颠覆材料学

每经记者 蔡鼎    每经编辑 兰素英   
从新能源汽车电池到太阳能电池,再到计算机芯片等诸多领域,一旦有新材料发现,无疑可加速技术层面的突破。不过,新材料的研发通常需要科学家们花费数月甚至数年的时间进行反复试验和验证。然而,谷歌旗下DeepMind近日公布的一项研究或将极大加快新材料在众多科技领域的应用速度。
谷歌DeepMind的研究团队通过人工智能工具“材料探索图形网络(以下简称GNoME)”发现了多达220万种理论上稳定,但绝大部分在实验上尚未实现的晶体结构,这一成果于11月29日在顶刊《自然(Nature)》杂志上发表。
GNoME发现的晶体结构数量是科学史上发现的此类物质数量的45倍以上,业内认为,这项技术为可再生能源和先进计算芯片等领域的发展提供新路径。
GNoME稳定性预测精度在迭代学习中迅速提高

据悉,这项被称为GNoME的人工智能模型旨在预测无机晶体结构,即原子的重复排列,使某种材料具有特殊的性质。迄今为止,人类已知的大约只有48000种无机晶体。
此次GNoME模型将这个数字扩展到多达220万种。Deepmind称,在这220万种新晶体结构中,其中有38万个稳定的晶体结构有望通过实验合成,有实际的应用前景,可能发展出“未来的变革性技术”,例如超导材料和下一代电池材料等。GNoME“在人类已知的稳定材料中实现了数量级的扩展,发现了大约800年来具有革命性潜力的新材料。”
为了发现更多新材料,DeepMind团队结合了两种不同的深度学习模型。第一种是通过对现有材料中的元素进行修改,产生了超过10亿个结构。第二种方法则抛开现有的材料结构,完全根据化学式来预测新材料的稳定性。这两种深度学习模型的结合,为新材料的发现提供了更广泛的可能性。



DeepMind发表在《自然》上的论文

候选的新材料结构生成后,研究人员通过GNoME模型进行筛选。该模型可以预测特定结构的分解能量(decomposition energy),这是衡量材料稳定程度的重要指标。只有“稳定”、不易分解的材料,才能对工业用途产生重要意义。因此,GNoME会预测并选择最具有应用前景的材料,并根据已知的理论框架对其进行进一步评估。
据悉,上述过程会被DeepMind团队重复多次,且每一次的发现都会被纳入下一次的训练中。虽然第一轮的测试中,GNoME预测不同材料稳定性的精度仅为5%左右,但在整个迭代学习的过程中,GNoME的预测精度迅速提高。最终的结果表明,GNoME在第一个模型中预测结构稳定性的精度已经超过80%,在第二个模型中精度则提高到了33%。
虽然新结构中的一些可能会衰变为更稳定的形式,或者不可能完全创建,但DeepMind团队已经在实验室中成功创造出了736种GNoME所发现的新材料,包括碱土金刚石样光学材料(Li4MgGe2S7)和潜在的超导体(Mo5GeB2),目前正在进行测试。



GNoME预测的各种新材料的晶体结构 图片来源:DeepMind

DeepMind的上述论文共同作者之一、材料研发主管Dogus Cubuk称,“对我来说,材料科学基本上是抽象思维与物理宇宙的交汇点,很难想象有哪项技术不会因更好的材料而得到改进。”
麻省理工学院材料科学与工程教授Ju Li认为,GNoME可以被视为材料发现领域的“阿尔法Fold”。“阿尔法Fold”是DeepMind于2020年推出的人工智能系统,能够高精度地预测蛋白质结构,并在生物研究和药物发现方面取得了重大进展。Ju Li称,得益于GNoME的强大能力,人类已知稳定材料的数量增长了近10倍,达到42.1万种。
GNoME已发现500多种有应用前景的锂离子导体

《每日经济新闻》记者注意到,其实利用人工智能模型制造新材料并非DeepMind首创——由美国劳伦斯伯克利国家实验室Kristin Persson领导的“材料项目(Materials Project)”已经使用类似的技术发现并提高了48000种材料的稳定性。该实验从材料数据库中获取数据,其中包括了GNoME的一些发现,并使用机器学习和机械臂,在没有人类干预的情况下设计新材料。



图片来源:伯克利国家实验室

然而,GNoME发现的新材料在规模和精度上都使其有别于劳伦斯伯克利国家实验室的工作。
明尼苏达大学化学工程与材料科学助理教授Chris Bartel认为,与之前的任何模型相比,GNoME的训练数据至少多了一个数量级。马里兰大学材料科学与工程系副教授Yifei Mo也指出,以前进行类似的研究不仅成本高昂,而且规模有限,GNoME可以让这些新材料的发现以更高的精度和更低的计算成本进行扩展,“影响可能是巨大的。”
更重要的是,DeepMind团队已经与伯克利国家实验室展开合作,并创建了一个能够自主合成这些新晶体的机器人实验室,名为A-Lab。新材料被发现后,将这些材料合成并验证它们的用途也同样重要。A-Lab也一直在将GNoME的一些发现与其“材料项目”成果结合,即将机器人技术与机器学习相结合,以优化这些材料的后续开发。
DeepMind和伯克利实验室的研究人员表示,这些新人工智能工具可以帮助加速能源、计算机和许多其他领域的硬件创新。例如,锂离子电池导体就是GNoME人工智能模型发现的新材料中最有应用前景的案例之一。DeepMind称,GNoME已发现了528 种有应用前景的锂离子导体,其中一些可能有助于提高电动车电池的效率。
然而,即使在新材料被发现之后,通常也需要几十年的时间才能将其推向商业应用阶段。Dogus Cubuk在新闻发布会上称,“如果我们能把这个从发现到应用的过程缩短到5年,那将是一个很大的进步。”
如需转载请与《每日经济新闻》报社联系。
未经《每日经济新闻》报社授权,严禁转载或镜像,违者必究。

快速回帖

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则