Nature综述 | 揭示AI时代科研新范式

[复制链接]
sexyrobto 发表于 2023-8-16 20:14:45|来自:北京 | 显示全部楼层 |阅读模式
人工智能 (AI) 正越来越多地融入科学发现中,以增强和加速研究,帮助科学家生成假设、设计实验、收集和解释大型数据集,并获得仅使用传统科学方法可能无法实现的见解。

AI与各个科学领域结合后,正在发生着一场充满潜力和挑战的科技革命。

8月2日,谷歌团队研究人员 Marinka Zitnik等在nature上发表综述,介绍了人工智能在科学研究中的应用,探讨了自监督学习、几何深度学习和生成式人工智能等方法在加速科学发现和解决核心问题方面的潜力。



图源:Scientific discovery in the age of artificial intelligence | Nature

科学发现是一个多方面的过程,涉及几个相互关联的阶段,包括假设形成、实验设计、数据采集和分析。尽管科学实践和过程在科学研究的各个阶段各不相同,但人工智能算法的发展推动了科学研究的设计和执行,正在成为研究人员不可或缺的工具。



图:Science in the age of artificial intelligence.          图源:参考资料【1】

AI正在各学科领域不断取得新突破,就包括解开50年前的蛋白质折叠问题,以及人工智能驱动的数百万粒子的分子系统模拟,证明了人工智能解决具有挑战性的科学问题的潜力。
AI辅助的科研数据收集与整理
数据选择
例如异常检测(Anomaly Detection)算法,将这些稀有事件视为异常数据进行识别并保存。这种思路在物理学、神经科学、地球科学、海洋学以及天文学等领域都得到了广泛的应用。
数据标注
训练有监督的模型需要依赖带有标签的数据集,然而对于生物学、医学等实验性学科来说,生成大量准确标签的数据集既耗时又耗力。伪标签法(Pseudo Labelling)和标签传播法(Label Propagation)因此成为了优秀的替代方案,它们允许在只有少量准确注释的大型无标签数据集上进行自动注释。此外,主动学习(Active Learning)可以帮助我们确定最有必要进行实验标注的数据点,从而进一步降低成本。
数据生成
通常来说,AI的性能随着训练数据集的质量、多样性和规模的提高而提高。通过自动数据增强(AutoAugment)和深度生成模型(Deep Generative AI)生成额外的合成数据点,以扩充训练数据集,是创建更好模型的一种有效方法。除了手动设计之外,强化学习方法(Reinforcement Learning)还可以发现一种自动数据增强的策略,这种策略既灵活又不依赖于下游任务。举例来说,生成对抗网络(Generative Adversatial Netowrk)已被证明对科学图像有益,它们可以在多个领域中生成逼真且有用的数据,从粒子碰撞事件、病理切片、胸部X光、磁共振对比、三维材料微结构、蛋白质功能到基因序列。
数据精化
高精度的仪器,如超高分辨率激光器和无创显微系统,可以直接或间接测量物理量,得到非常精确的结果。AI则能够进一步提高测量分辨率,减少噪声,并减小测量精度的误差,使之具有一致性。具体例子比如黑洞成像、捕捉物理粒子碰撞、提高活细胞图像的分辨率,以及细胞类型检测。
表征学习
Deep Learning能够在多层次上提取科学数据的meaningful representation,并优化这些表示以指导研究。好的Representation应该尽可能地保留数据的信息,同时simple, accessible, compact, discriminative, and disentangle。在文中,研究者简单介绍了几种策略:几何深度学习(Geometric deep learning),自监督学习(Self-Supervised Learning),语言模型(Language Modelling)和神经算子(Neural Operators)。



图: AI for Science中Representation Learning常见的几种策略     图源:参考资料【1】

基于AI的科学假设生成
1.科学假设的黑盒预测器
当假设涉及分子等复杂对象时,人工智能方法就变得非常有价值。例如,在蛋白质折叠方面,AlphaFold2可以根据氨基酸序列预测蛋白质的三维原子坐标,其精确度甚至可以达到原子级别,即使蛋白质的结构与训练数据集中的任何蛋白质都不同。这一突破促进了各种人工智能驱动的蛋白质折叠方法的发展,如RoseTTAFold106。
2.导航组合假设空间
3.优化可微分假设空间



图:AI帮助科学假设检验的几种常见模式     图源:参考资料【1】

AI驱动的实验和模拟

1.高效评估科学假设
2.利用模拟从假设中推导观测量



图:AI指导科学实验的几个常见例子    图源:参考资料【1】

重大挑战
人工智能工具的开发人员和用户都需要更好地了解这些方法何时需要改进,而数据质量和管理能力差带来的挑战依旧存在。这些问题跨越科学学科,需要开发有助于科学理解或自主获取科学理解的基础算法方法,使其成为人工智能创新的关键重点领域。
参考资料:
1.Wang, H., Fu, T., Du, Y. et al. Scientific discovery in the age of artificial intelligence. Nature 620, 47–60 (2023). https://doi.org/10.1038/s41586-023-06221-2
声明:本账号文章参考资料均已注明来源及原始链接,如有侵权请立即联系我们进行删除处理。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
全部回复0 显示全部楼层
暂无回复,精彩从你开始!

快速回帖

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则