# MatDesign **Repository Path**: dxhsoft/MatDesign ## Basic Information - **Project Name**: MatDesign - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-09-16 - **Last Updated**: 2025-10-17 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 一材料研究加速先进材料的发现对于现代工业、航空航天、生物医学和能源领域至关重要。人工智能（AI）开发了许多用于材料科学的 AI 工具包或平台。材料设计的 AI 平台。它能够利用模型推断、代理优化，甚至基于主动学习在数据稀缺的情况下，有效地端到端发现具有高潜力先进性能的新型材料。 * 主要侧重于材料性能预测 * 对缺乏编程经验的材料科学家不友好 * 在数据有限的情况下表现不佳 ## 1.1 架构和功能模块

## Flowcharts of materials design in MLMD platform（单目标/多目标材料设计流程图）

## Uploaded data layoout（上传的数据形式）

--- ## 1.2 本地部署 1. 本地电脑安装anaconda 2. conda创建mlmd环境 ``` conda create -n mlmd python=3.9 ``` 3. git clone或者手动下载 4. 安装依赖库 ``` pip install -r requirements.txt ``` 5. 运行 ``` streamlit run MLMD.py ``` ## Remote access（远程访问） ### (1) 数据库。从实验生成或从文献收集的材料数据 * 多晶陶瓷、高熵合金 HEA、铁电钙钛矿等的数据库。 * 提供异常值检测算法，如 DBSCAN 64 、IsolationForest 65 、LocalOutlierFactor 66 和 One Class SVM 67 ，以识别与其他数据点显著偏离的数据点。 * 异常值检测可以极大地增强 ML 模型的泛化能力。 ### (2) 数据可视化。 * 提供初始数据概览，包括特征和目标的分布，以及从数据中得出的统计信息。 ### (3) 特征工程。 * 材料成分和工艺显著影响材料的结构、性能和表现。这些成分通常用作 ML 中的特征描述符，决定了预测模型的性能极限。 * 集成了特征工程，包括处理缺失值和重复值、评估特征相关性以及排序特征重要性。 * MLMD 还提供转换功能，将成分描述符转换为原子描述符，例如原子半径、带隙和价态。 ### (4) 定量 CPSP 关系 (QCPSP)。 * 通过 ML 建立材料中的 QCPSP 是材料设计的基础。 * 支持几乎所有广泛使用的回归和分类算法，例如线性分析、稀疏核机器、概率模型、神经网络、迁移学习和集成学习 * 可以选择最合适的模型在数据上进行训练并进行推断。 ### (5) 代理优化。 * 将预测模型集成到数值优化算法中可以加速获得符合所需性能的最佳材料成分、工艺和其他相关特征。 * 发现的先进材料将经过实验验证。 ### (6) 主动学习。 * 由于数据有限，实现高精度的预测模型是材料科学中的一个挑战。 * 在 MLMD 平台的主动学习模块中提供了基于采样的材料设计策略。 * 基于贝叶斯的主动学习全局优化因其解决数据稀缺性和降低材料发现成本的能力而受到重视。 * 这种方法使用平衡利用和探索的最优策略来探索设计空间，以找到全局最优解。 * 在主动学习中，使用从昂贵实验或模拟中获得的初始输入-输出数据构建概率代理模型，即高斯过程（GP）。 ### (7) 可解释 ML。 * 实现物理可解释性是材料信息学中的一个重大挑战和目标。 * 可解释的 ML 可以增强材料科学家对材料 CPSP 关系的理解。 * MLMD 平台还提供了 Shapley 加法解释（SHAP）方法来促进模型解释。 * 如图 2 所示，MLMD 平台内材料设计有三个主要流程图。这些包括模型推断、代理优化和主动学习。 * 模型推断和代理优化的效率依赖于预测模型（代理模型）的鲁棒性，而模型性能受可用数据的限制。 * 在代理优化中，训练好的预测模型将被集成到随机优化算法中以加速材料设计。MLMD 中的主动学习采用基于贝叶斯原理的采样策略。 * 它平衡探索和利用，以制定最优的材料设计策略。主动学习模块将在有限数据下通过贝叶斯全局优化推荐下一个实验。 * 推荐的实验可以进行，实验的新结果将验证 ML 预测，同时反馈到数据集中，用于主动学习循环中的下一个迭代周期。 * 在 MLMD 平台内的材料设计流程图中，使用了一些有用的工具，包括 Streamlit、Scikit-Learn 49 、Pymoo 52 、极限梯度提升决策树 (XGBoost)50 、Scikit-Opt 和 Boolean。 ### 分类模块 * 使用标记为 C1-C3 和 R1-R5 的八个材料数据集作为案例研究，以展示我们 MLMD 平台内四个常用模块的可靠性和有效性。数据集的详细信息可在表 1 中找到。所提出的分类模块旨在解决材料科学中的分类问题。它只需要上传一个 CSV 格式的数据集并无编程地选择一个 MLMD 实现的算法即可完成模型构建。此外，用户可以直接调整或自动优化超参数，以进一步完善构建的 MLMD 分类模型，提高其准确性（指标详细信息见补充说明 1）。评估并比较了六个 MLMD 实现的分类算法（LR、SVC、BTC、RFC、XGBC 和 CBC）的性能，并与三个不同分类问题的基线模型进行了比较，描述如下。C1：识别多晶铁电陶瓷的晶体结构，将其分类为钙钛矿或非钙钛矿结构。 C2：将合金分为三类之一：晶体合金（CRA）、条带金属玻璃（RMG）或块状金属玻璃（BMG）。 C3：区分固溶体高熵合金（HEA）并将其分类为六方密堆积（HCP）、体心立方（BCC）、面心立方（FCC）或混合固溶体（MSS）。基线模型分别是 C1、C2 和 C3 问题中在 R 中实现的 SVC、在 Java 中实现的 RFC 和在 python 中实现的 RFC。如图 3a、c、e 所示，默认的 MLMD 实现的 SVC、RFC 和 XGBC 模型在所有三个问题上都实现了超过 80% 的 10 折交叉验证（CV）准确率。结果表明，默认的 MLMD 实现的模型无需任何其他操作即可提供令人满意的分类准确性。此外，超参数的优化可以显著增强所有 MLMD 实现模型的性能。 MLMD 平台还提供了一个用户友好的超参数调优功能，无需编程技能即可实现改进的模型。在这三个案例中，推荐的 MLMD 实现模型分别是针对 C1、C2 和 C3 的调优后的 XGBC 模型（CV 准确率 = 86.5%）调优后的 RFC 模型（CV 准确率 = 87.4%）和调优后的 RFC 模型（CV 准确率 = 92.6%）。推荐的 MLMD 实现模型在 C2 上的性能与基线模型相当，在 C1 和 C3 上优于基线模型，表明我们平台具有强大的分类能力。MLMD 平台还在分类模块中为每个推荐模型提供了混淆矩阵，如图 3b、d、f 所示。混淆矩阵用于观察分类模型在每个类别中的性能，并能够计算其他分类性能指标，例如精确率和召回率（原始混淆矩阵图见补充图 1）。根据 CPSP 关系，材料的性能在很大程度上取决于其微观结构。因此，基于成分和工艺识别微观结构对于材料设计非常重要。例如，BCC 高熵合金比 FCC 高熵合金硬得多，并且属于 BCC 类别的高熵合金应设计用于耐磨性。研究人员通常在传统材料设计范式中基于经验修改微观结构，而我们的平台提供了一个方便的工具，通过分类来识别微观结构。数据处理其他 MLMD 代理优化模型推断主动学习端到端材料设计文献数据实验数据数据库潜在高性能材料实验验证 a. 数据 b. 回归 c. 分类 d. 代理优化 e. 主动学习 f. 其他数据库数据预处理数据预处理单目标单目标迁移学习数据可视化与特征工程归一化标准化 K折CV LOO Logo (原文如此，可能指某种方法) 回归归一化标准化 K折CV LOO Logo (原文如此) 回归 GA, DE, PSO, SA, ... EI, PI, AEI, EQI, REI, UCB, PES, KG, EIP TrAdaBoostR2 降维 PCA, t-SNE 可解释ML 模型推断图 1 | MLMD 的概述与架构。 a 数据模块，包括材料数据库、数据可视化和特征工程。 b 回归模块，包含一组 ML 回归算法。这些算法可进一步用于代理优化模块。 c 分类模块，包含一组 ML 分类算法。这些算法可进一步用于代理优化模块。 d 代理优化模块， NSGA-II, SMS-EMOA 多目标 HV, EHVI, ... 图 1：MLMD 的整体概述和架构。 a 数据模块，包括材料数据库、数据可视化和特征工程。 b 回归模块，包含一组 ML 回归算法。这些算法可进一步用于代理优化模块。 c 分类模块，包含一组 ML 分类算法。这些算法可进一步用于代理优化模块。 d 代理优化模块， (图注继续) 其中 ML 模型被集成到数值算法中以加速材料设计。 e 主动学习模块，提供基于贝叶斯的采样方法来搜索材料成分空间并发现新材料，特别是在可用数据有限的情况下。 f 其他模块，提供高级 ML 算法，如迁移学习、降维和可解释 ML。回归模块与分类模块类似，回归模块只需要一个 CSV 格式的数据集来构建预测模型。它可以灵活地选择各种回归算法并调整相应的超参数，而无需编程。我们比较了六个 MLMD 实现的回归器（SVR、KNNR、MLPR、RFR、XGBR 和 CBR）的性能与基线模型，用于预测低合金钢的断裂应力（R1）、铁电钙钛矿的居里温度（R2）以及 FGH98 高温合金在热变形下的流变应力（R3）。这里使用的基线模型分别是 R1、R2 和 R3 问题中在 Java 中实现的 RFR 77 77 、在 R 中实现的 SVR 78 78 和在 python 中实现的 GPR 78 78 。从图 4a、c、e 可以看出，针对 R1 推荐的 XGBR 模型、针对 R2 推荐的 SVR 模型和针对 R3 推荐的 CBR 模型的 10 折 CV-R 2 2 （指标详细信息见补充说明 1）分别为 0.9427、0.8480 和 0.9828。推荐的 MLMD 实现模型在所有三个回归问题上都优于基线模型。从推荐的 MLMD 实现的回归器预测的性能与实验测量值进行了绘制，如图 4b、d、f 所示。值得注意的是，聚集在对角线附近的数据点表明我们的 MLMD 平台在不同的回归问题上提供了令人满意的性能（原始图见补充图 2）。与分类不同，回归通常用于预测与强度、延伸率和硬度等性能相关的材料表现。研究人员可以利用训练好的回归模型来替代耗时的试错实验，并以低成本设计先进材料。MLMD 内的回归模块为缺乏编程技能的实验研究人员提供了一个方便的工具。总之，MLMD 平台内的分类和回归模块允许通过无需编程的算法选择和超参数调优来获取准确的模型。此外，训练好的预测模型可以保存用于各种其他应用。代理优化模块训练好的回归模型作为代理模型，可以集成到高效的数值优化算法中以加速数据集 a. 模型推断 K折CV ML预测模型虚拟采样点模型推断推荐的新材料 b. 代理优化 K折CV ML预测模型特征物理约束，代理模型随机优化算法推荐的新材料 c. 主动学习高斯过程回归虚拟采样点选择合适的效用函数推荐的新材料模块一：数据中心（基石）数据接入与集成手动录入：标准化模板，支持Excel、CSV批量导入自动采集：与自动化实验设备直连，实时获取数据数据库对接：与外部材料数据库和文献数据库链接计算数据导入：支持第一性原理计算等结果导入解析数据治理与管理标准化模板：针对不同材料体系和实验类型数据清洗与预处理：缺失值处理、异常值检测等元数据管理：自动提取管理实验条件等关键元数据版本控制：记录实验数据和配方修改版本数据查询与浏览结构化查询：多字段组合筛选和精确查询全局搜索：关键词全文检索，快速定位数据可视化预览：图表形式快速预览数据趋势数据关系图谱：可视化展示数据间关联关系模块二：机器学习核心算法库（大脑）特征工程材料描述符自动计算：内置常见原子/分子描述符计算器降维工具：集成PCA、t-SNE等算法特征自动生成与筛选：自动生成组合并基于重要性筛选模型库与训练经典机器学习算法：回归模型：随机森林、梯度提升树、SVR 分类模型：用于材料分类或缺陷识别聚类模型：用于发现材料家族或潜在规律优化算法：贝叶斯优化：用于高效优化实验工艺参数遗传算法：用于多目标优化问题深度学习模型（可选）：图神经网络（GNN）：处理图结构材料数据生成式模型（VAE, GAN）：设计特定性能新材料自动化机器学习（AutoML）：自动模型选择与调优模型管理与部署模型训练界面：图形化拖拽或向导式配置模型版本管理：保存、对比不同版本训练模型模型一键部署：发布为预测服务API 模型性能监控：监控在线表现，预警性能衰减模块三：智能设计与人机交互（界面）预测与推荐性能预测：输入材料成分或结构，预测关键性能逆向设计：设定目标性能，推荐符合条件的材料下一个实验建议：推荐能带来最大信息增益的实验点工作流设计器图形化编排：拖拽方式自定义智能循环工作流条件逻辑设置：支持"如果...那么..."等条件判断工作流模板：提供常用工作流模板任务管理与调度实验任务创建：将ML推荐方案一键创建为任务任务队列管理：可视化查看任务状态资源调度：自动将任务分配给空闲实验设备模块四：实验执行与自动化（手臂）设备控制接口标准协议支持：SECS/GEM, OPC UA等标准通信协议驱动库：为常见高通量设备提供预置驱动指令发送与状态监控：发送控制指令，监控运行状态实验过程监控实时数据流显示：实时显示关键传感器数据和结果异常报警：数据偏离预期或设备异常时发出警报模块五：可视化与分析（眼睛）多维数据可视化定制化图表：散点图、折线图、平行坐标图等材料结构可视化：晶体结构、分子结构展示交互式仪表盘：自定义数据分析看板结果自动分析显著性分析：分析工艺参数对性能影响程度相关性分析：计算并可视化参数间相关性热力图自动报告生成：一键生成包含图表和结论的报告模块六：系统管理与安全用户与权限管理多角色权限控制：区分管理员、项目负责人等角色项目管理：按项目隔离数据、实验和模型系统监控系统健康度监控：服务器CPU、内存、存储空间操作日志：记录所有用户关键操作，便于审计功能演进路线建议 V1.0 最小可行产品（MVP）核心是实现数据管理、基础ML预测模型和结果可视化。实验环节以人工为主，平台提供决策支持。 V2.0 增加贝叶斯优化和工作流设计器，实现更智能的实验规划。开始与1-2种核心自动化设备集成。 V3.0（全功能版）完善深度学习模型和生成式设计功能，构建完整的自动化实验闭环，并向多学科领域拓展。