彩色编码使航空地图更容易理解。通过颜色,我们可以一眼看出哪里有道路、森林、沙漠、城市、河流或湖泊。
美国能源部(DOE)阿贡国家实验室与几所大学合作,设计了一种方法,用于创建X射线分析大量数据的彩色编码图。这个新工具使用计算数据排序来查找与物理特性相关的簇,例如晶体结构中的原子畸变。这将大大加快未来对温度变化引起的原子尺度结构变化的研究。
该研究小组在《美国国家科学院院刊》上发表了一篇题为“利用可解释和无监督的机器学习来处理现代X射线衍射的大数据”的文章,发表了他们的发现
“我们的方法使用机器学习来快速分析来自X射线衍射的大量数据,”阿贡材料科学部门的高级物理学家雷蒙德·奥斯本(Raymond Osborn)说。“过去花了我们几个月的时间,现在花了大约四分之一小时,结果更加精细。”
一个多世纪以来,X射线衍射(或XRD)一直是分析材料的所有科学方法中最富有成果的方法之一。它提供了无数具有重要技术意义的材料的三维原子结构的关键信息。
近几十年来,在大型设施中,如阿贡的美国能源部科学办公室用户设施先进光子源(APS),XRD实验产生的数据量大幅增加。然而,非常缺乏能够处理这些庞大数据集的分析方法。
该团队称他们的新方法为X射线温度聚类,简称XTEC。它通过对大型X射线数据集进行快速聚类和颜色编码,以揭示先前隐藏的随着温度升高或降低而发生的结构变化,从而加速材料发现。一个典型的大数据集是10000 GB,相当于大约300万首流媒体音乐歌曲。
XTEC利用了无监督机器学习的力量,使用了康奈尔大学为该项目开发的方法。这种机器学习不依赖于初始训练和学习,数据已经得到了很好的研究。相反,它通过在大型数据集中寻找模式和聚类进行学习,而无需进行此类训练。然后用颜色编码来表示这些图案。
“例如,XTEC可能会将red分配给数据集群一,该集群一与特定属性相关,该属性以特定方式随温度变化,”奥斯本说。然后,簇二将是蓝色的,并与另一个具有不同温度依赖性的属性相关联,依此类推。颜色决定每个簇是否代表航空地图中的道路、森林或湖泊
作为一个测试案例,XTEC分析了来自APS光束线6-ID-D的数据,这些数据取自两种在接近绝对零度的温度下超导的晶体材料。在这种超低温下,这些材料转变为超导状态,对电流没有电阻。对本研究更重要的是,在更高的温度下,与材料结构变化相关的其他异常特征也会出现。
通过应用XTEC,研究小组获得了前所未有的关于不同温度下原子结构变化的信息。这些不仅包括材料中原子有序排列的扭曲,还包括发生这种变化时发生的波动。
“由于机器学习,我们能够看到传统XRD无法看到的材料行为,”奥斯本说。“我们的方法不仅适用于超导体中的许多大数据问题,也适用于电池、太阳能电池和任何温度敏感设备。”
APS正在进行大规模升级,将其X射线束的亮度提高500倍。随着升级,APS收集的数据将显著增加,机器学习技术对于及时分析这些数据至关重要。