# MatDesign
**Repository Path**: dxhsoft/MatDesign
## Basic Information
- **Project Name**: MatDesign
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: main
- **Homepage**: None
- **GVP Project**: No
## Statistics
- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-09-16
- **Last Updated**: 2025-10-17
## Categories & Tags
**Categories**: Uncategorized
**Tags**: None
## README
# 一 材料研究
加速先进材料的发现对于现代工业、航空航天、生物医学和能源领域至关重要。人工智能(AI)开发了许多用于材料科学的 AI 工具包或平台。
材料设计的 AI 平台。它能够利用模型推断、代理优化,甚至基于主动学习在数据稀缺的情况下,有效地端到端发现 具有高潜力先进性能的新型材料。
* 主要侧重于材料性能预测
* 对缺乏编程经验的材料科学家不友好
* 在数据有限的情况下表现不佳
## 1.1 架构和功能模块
## Flowcharts of materials design in MLMD platform(单目标/多目标材料设计流程图)
## Uploaded data layoout(上传的数据形式)
---
## 1.2 本地部署
1. 本地电脑安装anaconda
2. conda创建mlmd环境
```
conda create -n mlmd python=3.9
```
3. git clone或者手动下载
4. 安装依赖库
```
pip install -r requirements.txt
```
5. 运行
```
streamlit run MLMD.py
```
## Remote access(远程访问)
### (1) 数据库。从实验生成或从文献收集的材料数据
* 多晶陶瓷、高熵合金 HEA、铁电钙钛矿等的数据库。
* 提供异常值检测算法,如 DBSCAN 64 、IsolationForest 65 、LocalOutlierFactor 66 和 One Class SVM 67 ,以识别与其他数据点显著偏离的数据点。
* 异常值检测可以极大地增强 ML 模型的泛化能力。
### (2) 数据可视化。
* 提供初始数据概览,包括特征和目标的分布,以及从数据中得出的统计信息。
### (3) 特征工程。
* 材料成分和工艺显著影响材料的结构、性能和表现。这些成分通常用作 ML 中的特征描述符,决定了预测模型的性能极限。
* 集成了特征工程,包括处理缺失值和重复值、评估特征相关性以及排序特征重要性。
* MLMD 还提供转换功能,将成分描述符转换为原子描述符,例如原子半径、带隙和价态。
### (4) 定量 CPSP 关系 (QCPSP)。
* 通过 ML 建立材料中的 QCPSP 是材料设计的基础。
* 支持几乎所有广泛使用的回归和分类算法,例如线性分析、稀疏核机器、概率模型、神经网络、迁移学习和集成学习
* 可以选择最合适的模型在数据上进行训练并进行推断。
### (5) 代理优化。
* 将预测模型集成到数值优化算法中可以加速获得符合所需性能的最佳材料成分、工艺和其他相关特征。
* 发现的先进材料将经过实验验证。
### (6) 主动学习。
* 由于数据有限,实现高精度的预测模型是材料科学中的一个挑战。
* 在 MLMD 平台的主动学习模块中提供了基于采样的材料设计策略。
* 基于贝叶斯的主动学习全局优化因其解决数据稀缺性和降低材料发现成本的能力而受到重视。
* 这种方法使用平衡利用和探索的最优策略来探索设计空间,以找到全局最优解。
* 在主动学习中,使用从昂贵实验或模拟中获得的初始输入-输出数据构建概率代理模型,即高斯过程(GP)。
### (7) 可解释 ML。
* 实现物理可解释性是材料信息学中的一个重大挑战和目标。
* 可解释的 ML 可以增强材料科学家对材料 CPSP 关系的理解。
* MLMD 平台还提供了 Shapley 加法解释(SHAP)方法来促进模型解释。
* 如图 2 所示,MLMD 平台内材料设计有三个主要流程图。这些包括模型推断、代理优化和主动学习。
* 模型推断和代理优化的效率依赖于预测模型(代理模型)的鲁棒性,而模型性能受可用数据的限制。
* 在代理优化中,训练好的预测模型将被集成到随机优化算法中以加速材料设计。MLMD 中的主动学习采用基于贝叶斯原理的采样策略。
* 它平衡探索和利用,以制定最优的材料设计策略。主动学习模块将在有限数据下通过贝叶斯全局优化推荐下一个实验。
* 推荐的实验可以进行,实验的新结果将验证 ML 预测,同时反馈到数据集中,用于主动学习循环中的下一个迭代周期。
* 在 MLMD 平台内的材料设计流程图中,使用了一些有用的工具,包括 Streamlit、Scikit-Learn 49 、Pymoo 52 、极限梯度提升决策树 (XGBoost)50 、Scikit-Opt 和 Boolean。
### 分类模块
* 使用标记为 C1-C3 和 R1-R5 的八个材料数据集作为案例研究,以展示我们 MLMD 平台内四个常用模块的可靠性和有效性。数据集的详细信息可在表 1 中找到。
所提出的分类模块旨在解决材料科学中的分类问题。它只需要上传一个 CSV 格式的数据集并无编程地选择一个 MLMD 实现的算法即可完成模型构建。此外,
用户可以直接调整或自动优化超参数,以进一步完善构建的 MLMD 分类模型,提高其准确性(指标详细信息见补充说明 1)。
评估并比较了六个 MLMD 实现的分类算法(LR、SVC、BTC、RFC、XGBC 和 CBC)的性能,
并与三个不同分类问题的基线模型进行了比较,描述如下。C1:识别多晶铁电陶瓷的晶体结构,将其分类为钙钛矿或非钙钛矿结构。
C2:将合金分为三类之一:晶体合金(CRA)、条带金属玻璃(RMG)或块状金属玻璃(BMG)。
C3:区分固溶体高熵合金(HEA)并将其分类为六方密堆积(HCP)、体心立方(BCC)、面心立方(FCC)或混合固溶体(MSS)。
基线模型分别是 C1、C2 和 C3 问题中在 R 中实现的 SVC、在 Java 中实现的 RFC 和在 python 中实现的 RFC。
如图 3a、c、e 所示,默认的 MLMD 实现的 SVC、RFC 和 XGBC 模型在所有三个问题上都实现了超过 80% 的 10 折交叉验证(CV)准确率。结果表明,
默认的 MLMD 实现的模型无需任何其他操作即可提供令人满意的分类准确性。此外,超参数的优化可以显著增强所有 MLMD 实现模型的性能。
MLMD 平台还提供了一个用户友好的超参数调优功能,无需编程技能即可实现改进的模型。
在这三个案例中,推荐的 MLMD 实现模型分别是针对 C1、C2 和 C3 的调优后的 XGBC 模型(CV 准确率 = 86.5%)
调优后的 RFC 模型(CV 准确率 = 87.4%)和调优后的 RFC 模型(CV 准确率 = 92.6%)。推荐的 MLMD 实现模型在 C2 上的性能与基线模型相当,
在 C1 和 C3 上优于基线模型,表明我们平台具有强大的分类能力。MLMD 平台还在分类模块中为每个推荐模型提供了混淆矩阵,如图 3b、d、f 所示。
混淆矩阵用于观察分类模型在每个类别中的性能,并能够计算其他分类性能指标,例如精确率和召回率(原始混淆矩阵图见补充图 1)。
根据 CPSP 关系,材料的性能在很大程度上取决于其微观结构。因此,基于成分和工艺识别微观结构对于材料设计非常重要。例如,BCC 高熵合金比 FCC 高熵合金硬得多,并且属于 BCC 类别的高熵合金应设计用于耐磨性。研究人员通常在传统材料设计范式中基于经验修改微观结构,而我们的平台提供了一个方便的工具,通过分类来识别微观结构。
数据处理
其他
MLMD
代理优化
模型推断
主动学习
端到端材料设计
文献数据
实验数据
数据库
潜在高性能材料
实验验证
a. 数据
b. 回归
c. 分类
d. 代理优化
e. 主动学习
f. 其他
数据库
数据预处理
数据预处理
单目标
单目标
迁移学习
数据可视化与特征工程
归一化
标准化
K折CV
LOO
Logo (原文如此,可能指某种方法)
回归
归一化
标准化
K折CV
LOO
Logo (原文如此)
回归
GA, DE, PSO, SA, ...
EI, PI, AEI, EQI,
REI, UCB, PES, KG,
EIP
TrAdaBoostR2
降维
PCA, t-SNE
可解释ML
模型推断
图 1 | MLMD 的概述与架构。 a 数据模块,包括材料数据库、数据可视化和特征工程。 b 回归模块,包含一组 ML 回归算法。这些算法可进一步用于代理优化模块。 c 分类模块,包含一组 ML 分类算法。这些算法可进一步用于代理优化模块。 d 代理优化模块,
NSGA-II, SMS-EMOA
多目标
HV, EHVI, ...
图 1:MLMD 的整体概述和架构。 a 数据模块,包括材料数据库、数据可视化和特征工程。 b 回归模块,包含一组 ML 回归算法。这些算法可进一步用于代理优化模块。 c 分类模块,包含一组 ML 分类算法。这些算法可进一步用于代理优化模块。 d 代理优化模块,
(图注继续) 其中 ML 模型被集成到数值算法中以加速材料设计。 e 主动学习模块,提供基于贝叶斯的采样方法来搜索材料成分空间并发现新材料,特别是在可用数据有限的情况下。 f 其他模块,提供高级 ML 算法,如迁移学习、降维和可解释 ML。
回归模块
与分类模块类似,回归模块只需要一个 CSV 格式的数据集来构建预测模型。它可以灵活地选择各种回归算法并调整相应的超参数,而无需编程。我们比较了六个 MLMD 实现的回归器(SVR、KNNR、MLPR、RFR、XGBR 和 CBR)的性能与基线模型,用于预测低合金钢的断裂应力(R1)、铁电钙钛矿的居里温度(R2)以及 FGH98 高温合金在热变形下的流变应力(R3)。这里使用的基线模型分别是 R1、R2 和 R3 问题中在 Java 中实现的 RFR
77
77
、在 R 中实现的 SVR
78
78
和在 python 中实现的 GPR
78
78
。从图 4a、c、e 可以看出,针对 R1 推荐的 XGBR 模型、针对 R2 推荐的 SVR 模型和针对 R3 推荐的 CBR 模型的 10 折 CV-R
2
2
(指标详细信息见补充说明 1)分别为 0.9427、0.8480 和 0.9828。推荐的 MLMD 实现模型在所有三个回归问题上都优于基线模型。从推荐的 MLMD 实现的回归器预测的性能与实验测量值进行了绘制,如图 4b、d、f 所示。
值得注意的是,聚集在对角线附近的数据点表明我们的 MLMD 平台在不同的回归问题上提供了令人满意的性能(原始图见补充图 2)。与分类不同,回归通常用于预测与强度、延伸率和硬度等性能相关的材料表现。研究人员可以利用训练好的回归模型来替代耗时的试错实验,并以低成本设计先进材料。MLMD 内的回归模块为缺乏编程技能的实验研究人员提供了一个方便的工具。
总之,MLMD 平台内的分类和回归模块允许通过无需编程的算法选择和超参数调优来获取准确的模型。此外,训练好的预测模型可以保存用于各种其他应用。
代理优化模块
训练好的回归模型作为代理模型,可以集成到高效的数值优化算法中以加速
数据集
a. 模型推断
K折CV
ML预测模型
虚拟采样点
模型推断
推荐的新材料
b. 代理优化
K折CV
ML预测模型
特征物理约束,代理模型
随机优化算法
推荐的新材料
c. 主动学习
高斯过程回归
虚拟采样点
选择合适的效用函数
推荐的新材料
模块一:数据中心(基石)
数据接入与集成
手动录入:标准化模板,支持Excel、CSV批量导入
自动采集:与自动化实验设备直连,实时获取数据
数据库对接:与外部材料数据库和文献数据库链接
计算数据导入:支持第一性原理计算等结果导入解析
数据治理与管理
标准化模板:针对不同材料体系和实验类型
数据清洗与预处理:缺失值处理、异常值检测等
元数据管理:自动提取管理实验条件等关键元数据
版本控制:记录实验数据和配方修改版本
数据查询与浏览
结构化查询:多字段组合筛选和精确查询
全局搜索:关键词全文检索,快速定位
数据可视化预览:图表形式快速预览数据趋势
数据关系图谱:可视化展示数据间关联关系
模块二:机器学习核心算法库(大脑)
特征工程
材料描述符自动计算:内置常见原子/分子描述符计算器
降维工具:集成PCA、t-SNE等算法
特征自动生成与筛选:自动生成组合并基于重要性筛选
模型库与训练
经典机器学习算法:
回归模型:随机森林、梯度提升树、SVR
分类模型:用于材料分类或缺陷识别
聚类模型:用于发现材料家族或潜在规律
优化算法:
贝叶斯优化:用于高效优化实验工艺参数
遗传算法:用于多目标优化问题
深度学习模型(可选):
图神经网络(GNN):处理图结构材料数据
生成式模型(VAE, GAN):设计特定性能新材料
自动化机器学习(AutoML):自动模型选择与调优
模型管理与部署
模型训练界面:图形化拖拽或向导式配置
模型版本管理:保存、对比不同版本训练模型
模型一键部署:发布为预测服务API
模型性能监控:监控在线表现,预警性能衰减
模块三:智能设计与人机交互(界面)
预测与推荐
性能预测:输入材料成分或结构,预测关键性能
逆向设计:设定目标性能,推荐符合条件的材料
下一个实验建议:推荐能带来最大信息增益的实验点
工作流设计器
图形化编排:拖拽方式自定义智能循环工作流
条件逻辑设置:支持"如果...那么..."等条件判断
工作流模板:提供常用工作流模板
任务管理与调度
实验任务创建:将ML推荐方案一键创建为任务
任务队列管理:可视化查看任务状态
资源调度:自动将任务分配给空闲实验设备
模块四:实验执行与自动化(手臂)
设备控制接口
标准协议支持:SECS/GEM, OPC UA等标准通信协议
驱动库:为常见高通量设备提供预置驱动
指令发送与状态监控:发送控制指令,监控运行状态
实验过程监控
实时数据流显示:实时显示关键传感器数据和结果
异常报警:数据偏离预期或设备异常时发出警报
模块五:可视化与分析(眼睛)
多维数据可视化
定制化图表:散点图、折线图、平行坐标图等
材料结构可视化:晶体结构、分子结构展示
交互式仪表盘:自定义数据分析看板
结果自动分析
显著性分析:分析工艺参数对性能影响程度
相关性分析:计算并可视化参数间相关性热力图
自动报告生成:一键生成包含图表和结论的报告
模块六:系统管理与安全
用户与权限管理
多角色权限控制:区分管理员、项目负责人等角色
项目管理:按项目隔离数据、实验和模型
系统监控
系统健康度监控:服务器CPU、内存、存储空间
操作日志:记录所有用户关键操作,便于审计
功能演进路线建议
V1.0 最小可行产品(MVP)
核心是实现数据管理、基础ML预测模型和结果可视化。实验环节以人工为主,平台提供决策支持。
V2.0
增加贝叶斯优化和工作流设计器,实现更智能的实验规划。开始与1-2种核心自动化设备集成。
V3.0(全功能版)
完善深度学习模型和生成式设计功能,构建完整的自动化实验闭环,并向多学科领域拓展。