机器学习在材料科学中应用

作为一个目前专业为材料学科，但却独自学习机器学习的小菜鸡，最理想的莫过于将俩者结合，但是这只是个想法，感觉理论上可以实现，要达到这样的目的还需要很艰难的一段路要走，但不妨先把目前的相关的知识整理下来。

我们的日常生活受到材料的影响，从数十亿分之一秒的硅芯片数据存储到汽车发动机的新合金，再到可再生能源的太阳能电池板。确实，材料的进步影响了我们的日常生活，并推动了经济增长。简单地把材料变成现实。

传统的发现新材料的方法，如经验试错法和基于密度泛函理论(DFT)的方法，由于开发周期长、效率低、成本高，已经无法跟上当今材料科学的发展。因此，机器学习由于计算成本低、开发周期短，加上强大的数据处理能力和较高的预测性能，被广泛应用于材料检测、材料分析、材料设计等领域。

在材料基因组计划的推动下，算法发展；以及在其他领域毫无疑问的数据驱动工作取得了成功，信息学战略已在材料科学领域初具规模。利用材料特性数据和先进的计算机模型，工程师可以真实地模拟新材料在特定应用中的行为，并避免冗长的构建和测试周期。这些模拟涵盖了广泛的操作环境以及时长和时标。这个新领域称为计算材料科学，是化学和材料科学领域中发展最快的领域之一。

材料科学的指导思想可以总结为四种范式:

第一种范式是经验的试错方法，

第二种范式是物理和化学规律，

第三种范式是计算机模拟，

第四种范式是大数据驱动的科学。

随着科技的发展，第四种范式可以在理论、实验和计算机模拟等方面完美地统一其他三种范式。基于大数据的新方法，如机器学习，已经在材料科学研究中涌现出来。

材料科学中的机器学习

信息科学、能源、国防等领域的快速发展，对材料提出了重要而多样化的要求。然而，传统的发现新材料的方法，如经验试错法和基于密度泛函理论(DFT)的方法，往往需要较长的研发周期，成本高、效率低，难以跟上当今材料科学的发展。机器学习可以大幅度降低计算成本，缩短开发周期;因此，它是一种最有效的替代DFT计算甚至重复的实验室实验的方法。

早在上个世纪，机器学习就被用来检测c60在材料科学中的溶解度，现在它已经被用于发现新材料、预测材料和分子性质、研究量子化学和设计药物。

大数据的发展极大地丰富了材料科学的信息。Agrawal和choudhary将大数据引起的变化总结为七个特点:体积、速度、多样性、可变性、准确性、价值和可视化。这些阻碍了数据处理在材料科学中的应用，而材料科学作为机器学习的关键一步，将直接影响产生的机器学习模型的性能。数据处理通常包括两个部分:数据选择和特征工程。

目前,材料科学的数据大致可以分为四种类型:

从实验和模拟材料特性(物理、化学、结构、热力学、动力学等),
化学反应数据(反应速率、反应温度等),
图像数据(扫描电子显微镜图像的材料,材料表面的照片,等等),
文献中的数据。

这些数据是离散的(如文本)，连续的(如矢量和张量)，或者是加权图的形式。由于数据以不同的格式存储在不同的数据库中，很难考虑来自多个数据库的数据。此外，所需的数据格式取决于所应用的机器学习算法。因此，机器学习算法在处理数据时，有必要对数据格式进行统一，选择合适的数据表示形式。

分子的各种表示

在材料科学中，机器学习在新材料发现和材料特性预测等领域至关重要。例如，在预测玻璃化转变温度Tg的实验中，很难找到一个公式，可以精确地描述Tg与刚性，链迁移率，平均分子极化率和净电荷的四个相关因素之间的关系。但是，可以使用机器学习方法基于给定样本对条件因子与决策属性之间的关系进行建模。这是机器学习发挥作用的地方，也是“核心”算法所在的地方。通过机器学习获得的知识以易于使用的格式存储，进而可以用于材料发现和设计。

有了适当格式的足够数据，就可以建立分析材料的模型。建模步骤包括选择合适的算法，从训练数据中进行训练，以及做出准确的预测。机器学习可以分为有监督学习、无监督学习、半监督学习和强化学习。

监督式学习又称“跟着老师学习”，即对训练数据的相应输出进行标注。
而在无监督学习中，训练数据对应的输出是无标记的。
对于半辅助学习，一些训练数据是标记的，其余的数据是未标记的;未标记数据的数量常常远远超过标记数据的数量。
在强化学习中，不是向模型指定如何产生正确的行动，而是利用环境提供的强化信号来评价所产生行动的质量，改进策略以适应环境。
算法可用于实现上述四种类型的机器学习方法，可分为两种类型:浅层学习和深度学习。

上述提到我们需要足够量的数据，机器学习在数据密集型应用程序中非常成功，但是在数据集较小时通常会受到阻碍。最近，提出了Few-Shot Learning（FSL）来解决这个问题。正好解决材料科学在面对数据量较小的无法应用到机器学习到的问题。

材料科学中机器学习的基本步骤

材料科学中机器学习的基本步骤包括三个步骤：样本生成，模块构建和模型评估

材料科学中机器学习的一般过程

Samples construction--样本构建：从计算模拟和实验测量中收集原始数据。通常，数据不完整，嘈杂且不一致，因此，从原始数据构建样本时应执行数据清理。

Model building--建立模型：使用一组非线性或线性函数将输入数据链接到输出数据。在材料科学中，条件因素和目标属性之间通常存在复杂的关系，而传统方法难以处理。

Model evaluation--模型评估：数据驱动的模型应该不仅在现有数据上而且在看不见的数据上都具有良好的性能。通常，我们可以通过基于计算的测试来评估模型的泛化误差，并使用结果选择最佳的。

机器学习和材料特性预测

不管正在研究的问题是什么，机器学习的标准都是过去数据的存在，或者应该已经有与正在研究的问题相对应的干净，精选和可靠的数据，或者已经在努力创建数据。

在材料科学中，用于预测材料特性的机器学习框架包括一个数据集，该数据集的属性与属于感兴趣化学类别的各种材料有关，并且引用了这些材料的相关测量或计算特性表示为“输入”，而感兴趣的属性称为“目标”或“输出”。因此，学习问题的定义如下：给定一个{materials→property}数据集，对于不在原始数据集中的新材料，该属性的最佳估计是什么？

理解此问题的一种方法是，首先用数字表示数据集中的各种输入情况（或材料）。每个输入案例将减少为一串数字，必须强调这一步骤，因为这是需要大量专业知识和材料类别及应用知识（“领域专业知识”）的地方，这一点很重要。

性能预测

第二步建立了特征和目标属性之间的映射，并且本质上是完全数字的，基本上不需要领域知识。指纹和映射/学习步骤均是示意性的。从简单（例如线性回归）到高度复杂（内核岭回归，决策树，深度神经网络）的几种算法可用于建立此映射和代理预测模型的创建。虽然某些算法提供了使输入与输出相关的实际功能形式（例如回归），而其他算法则没有（例如决策树）。

在此讨论中，假设目标属性为连续量（例如，体积模量，带隙，熔融温度等）。问题还可能涉及离散的目标（例如，晶体结构，特定的结构图案等），这被称为分类问题。在整个机器学习过程中，必须遵守严格的统计实践。对此的核心是对看不见的数据进行交叉验证和测试的概念，这种方法试图确保基于原始数据集开发的学习模型可以真正处理新案例，而不会冒“过度拟合”的危险。

应用

材料科学界刚刚开始探索和利用大量可用的信息理论算法来挖掘数据并从中学习，同时结合FSL方法弥补材料中数据量不足的问题，下面举几个材料中可用到机器学习的应用：

材料属性分析：
降解检测
纳米材料分析
分子性质预测

发现新材料：
面向结构设计
面向元素设计
逆设计
药物设计

量子化学：

总结

机器学习凭借其强大的预测性能和较低的计算成本，被广泛应用于性能的预测、新材料的发现和量子化学的探索。然而，机器学习在材料科学中的应用还面临着许多问题。例如，现有与材料相关的高质量数据不足（上述中提到的FSL可以尝试解决），材料的性质难以很好地表征，预测精度低于DFT计算等等问题。

我们的目的是要将材料科学与机器学习俩者结合起来，能不能融合就看它们适不适合，既然是俩者之间的关系，我们就分别从材料科学与机器学习俩个方面考虑，从材料方面我们需要要提供的是数据，所以我们想办法如何能够提供高质量更多的数据，从机器学习我们需要从分析处理数据方面对数据如何能获取扩增更多的高质量数据，这样我们就可以用现有的机器学习方法进行求解，如果我们无法再数据上得以改善，那么就考虑如何在较少的数据量，得到更好的分析，我相信未来有一天是可以做到的，而且不会很久，因为原则就是模仿人的可变思维去用机器超强记忆库做实践分析。但是还有个问题就是即使解决了这需要双方都需要必备的知识，有人提供材料人可以把机器学习理解成黑箱子，这就会有时误导一些人仅仅了解一下表面，以至于和材料结合时就会出现期望与现实不符的失败结局，如果我们把俩者都搞定，显然是好事，可是在有限时间里，这种对于一般人来讲是异常艰难，因为大多数学生得考虑毕业问题，对于毕业还不得不做一些事情，以达到毕业的条件，以至于无法投入更多的时间去研究。所以现在有人也尝试用协同合作，即现在在提倡的交叉学科，这种想法我是比较支持的，说到这个交叉学科，不得不提一下这个交叉，对于今年2020年，大家都经历了的一场难以忘记的疫情，这次疫情的威胁者，它本身相对于其他可怕的病毒来讲自身威胁是相对较小的，可怕的是它的传染性极强，即它可以做到交叉感染，所以我们再映射到我们的生活中，很多事情如果可以借助其他工具，我们做起事来就高效很多，再回到我们的机器学习和材料科学方面，材料科学本身就是一个交叉学科，比如我们现在的公共课数学、统计等等，而机器学习，也是交叉学科，现在把这个俩种交叉学科继续交叉，区别在于这种新的交叉学科需要俩个人，分别各占一类学科来解决。

不管用何种方式，都是希望能够真正意义上提高科研速度和质量，推动社会发展与科技进步，而不是某种方式上的“发文章”，尽其所为，不负韶华，科研路上已经就充满了意义。我是个小菜鸡，上述仅个人愚见，如有不当，请大佬指点。

参考：

How is Machine Learning Applicable in Material Science?

Materials discovery and design using machine learning

Machine Learning and Materials Informatics:Recent Applications and Prospects

Machine learning in materials science

Generalizing from a Few Examples: A Survey on Few-Shot
Learning
Github地址