【Nature 封面论文】机器学习掀起材料革命,人工_英语作文网

2019年06月19日 14:37:13作文网
A+ A-

使用计算机模型和机器学习算法的好处在于,失败的实验数据也能用作下一轮的输入,继而不断完善算法。伦敦帝国学院研究副院长、材料科学家 Neil Alford 以观察者身份发表评论,这种做法代表了实验科学和理论科学的真正融合

加州大学伯克利分校的材料科学家 Gerbrand Ceder 在接受 Nature 记者采访时说,使用机器学习算法有望大幅提高新材料发现的速度和效率。Ceder 是最早开始使用计算模型和机器学习生成假想材料的科学家之一,他以化合物磷酸铁锂为例:磷酸铁锂最初于 20 世纪 30 年代被合成,但当时世人并不认为这种材料会有多大用途,直到 1996 年科学家发现磷酸铁锂大有取代现有锂离子电池的可能。

Haverford College和Purdue University的研究者采用计算材料科学思路,使用“失败”数据,成功完成了这篇被选为本期 Nature 封面的论文。

有了机器学习,再也不怕失败了

论文标题:Machine-learning-assisted materials discovery using failed experiments

作者:Paul Raccuglia、Katherine C. Elbert、Philip D. F. Adler、Casey Falk、Malia B. Wenny、Aurelio Mollo、Matthias Zeller、Sorelle A. Friedler、Joshua Schrier、Alexander J. Norquist

来源:Nature 533, 73–76 (05 May 2016) doi:10.1038/nature17439

使用失败实验在机器学习辅助下进行材料发现(摘译)

对诸如有机模板合成的金属氧化物、金属有机骨架(MOF)和有机卤化钙钛矿等无机-有机杂化材料的研究已经持续了数十年。水热法和(非水)溶剂热合成已经产生了数千种新材料,这些新材料几乎包含了元素周期表中的所有元素。然而,我们仍未充分理解这些化合物的形成过程,对新化合物的开发主要依靠试探性合成。在Materials Genome Initiative的推动下,计算机模拟和数据驱动的方法成为对实验试错方法的替代选择。三个主要的策略是:基于模拟来预测材料的电荷迁移率、光生伏打性质、气体吸附能力和锂离子嵌入等物理性质,从而确定那些有前景的合成对象。通过整合高通量合成与测量工具,从大规模实验数据中确定材料的结构-性质关系。基于诸如沸石结构分类和气体吸附性能等相似的晶体结构,对材料进行聚类。

在这里,我们展示了用反应数据训练机器学习算法,继而预测模板合成的钒亚硒酸盐结晶过程的反应结果。我们使用未发表的“黑暗”反应信息,这些反应信息来自那些失败或未成功的水热合成实验。我们从实验室的笔记本档案中收集了这些信息,并运用化学信息学技术为笔记本中的原始数据添加了理化性质描述。我们用由此产生的数据训练机器学习模型预测反应能否成功。当使用先前未经测试的、市场有售的有机砌块进行水热合成实验时,我们的机器学习模型获得了比传统人类策略更好的效果,并成功预测了有机模板合成的无机物的形成条件,成功率达 89%。对机器学习模型进行反演后,可以揭示出关于成功产物形成条件的崭新假设。

实验中机器学习模型反馈机制示意图

【Nature 封面论文】机器学习掀起材料革命,人工_英语作文网

图1|“黑暗”反应的反馈机制示意图。使用从历史反应数据中产生的机器学习模型推荐可供执行的新反应,并产生关于结晶过程的假设,这些假设可以被人类解读。另,SVM 是支持向量机的缩写。来源:Nature 533, 73–76

机器学习模型超越传统人类策略

【Nature 封面论文】机器学习掀起材料革命,人工_英语作文网

图2|关于模板合成的钒亚硒酸盐晶体形成的实验结果比较,以胺相似度为横轴。深色条表示机器学习模型的预测,浅色条表示传统的人类策略。产生了多晶和大单晶产物的反应分别显示为蓝色和绿色。纵轴显示了反应出现所指示的结果的概率。机器学习模型比人类策略更成功地预测了晶体形成的条件,无论用模板合成的胺数据库中已知实例时所具有的系统相似性如何。来源:Nature 533, 73–76

支持向量决策树

【Nature 封面论文】机器学习掀起材料革命,人工_英语作文网

图3|从 SVM 中得到的决策树。椭圆表示决策节点,矩形代表反应结果容器,三角形代表被切除的子树。箭头上的数字对应于决策属性的测试值。每个反应结果容器(矩形)对应一个特定的反应结果值(“3”或“4”,如图所示)。括号中的数字是正确地分配给该容器的反应的数量(任何被错误分类的反应都用正斜杠标识)。分数值表示反应具有不确定的结果,这是由决策树的较高位置的属性值缺失导致的。那些包含了大多数成功反应的容器被分为三个不同的组(分别用绿色,蓝色和红色阴影标示)。每个彩色子树定义了一组有助于单晶形成的特定反应参数。通过审查这些条件,可以得出相应的化学假设,这些假设分别对应于低、中和高极化胺。来源:Nature 533, 73–76

算法生成的假设及其化学三维结构模型

【Nature 封面论文】机器学习掀起材料革命,人工_英语作文网