# YiZhao-12B-Chat **Repository Path**: qujianwei/yi-zhao-12-b-chat ## Basic Information - **Project Name**: YiZhao-12B-Chat - **Description**: No description available - **Primary Language**: Python - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 1 - **Created**: 2025-08-07 - **Last Updated**: 2025-08-07 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 一招(YiZhao)使用指南
## 目录 - [模型介绍](#模型介绍) - [效果评测](#效果评测) - [快速开始](#快速开始) - [声明与协议](#声明与协议) ## 模型介绍 一招(YiZhao)是招商银行联合华为、智谱AI,在全国产的设备与训练框架下训练得到的金融领域大语言模型系列。我们首先在大规模高质量数据上进行预训练,再通过高质量金融数据进行后期微调(SFT),最后通过直接偏好优化(DPO)进一步优化模型,最终训练出了YiZhao-12B-Chat。YiZhao-12B-Chat具备自然语言理解、文本生成、舆情事件抽取、工具使用进行互动等多种功能。YiZhao-12B-Chat是一个专为金融领域设计的 120亿参数大型语言模型,支持32K上下文长度。 主要特点: 进行了多维度数据清洗与筛选,最终采用284GB金融语料与657GB通用语料进行训练,保证数据的量级和质量。 YiZhao-12B-Chat是基于GLM(General Language Model)架构的中英双语对话模型,具有120亿参数,专为问答和对话场景优化。 YiZhao-12B-Chat完全基于国产算力和国产深度学习框架MindSpore进行训练,算力和算法框架更自主可控。 这款模型在云端私有化部署后,可以为企业和个人提供高效、灵活的智能对话解决方案。 下载链接: | 社区 | 下载地址 | |:-----:|:------------------------------------------------------------| | 魔搭社区 | https://www.modelscope.cn/models/CMB_AILab/YiZhao-12B-Chat/ | | 魔乐社区 | https://modelers.cn/models/CMB_AI_Lab/YiZhao-12B-Chat/ | | 码云 | https://gitee.com/mindspore/mindformers/ | ## 效果评测 效果评测包括通用能力评测和金融领域评测。模型在保持通用能力的基础上进一步提升金融领域能力。 #### 1. 通用评测 在通用领域评测中,我们选择当下主流的几类客观评测基准,见下表: | 能力 | 任务 | 描述 | |--------|-------|----------------------------------------------------------------| | 逻辑推理 | [ARC Challenge](https://huggingface.co/datasets/malhajar/arc-tr) | ARC问题需要多种类型的知识与推理,包括定义、基本事实和属性、结构、过程与因果、目的论、代数、实验、空间/运动学、类比等,ARC问题集包含7787个自然科学问题 | | 中文知识 | [CMMLU](https://huggingface.co/datasets/haonan-li/cmmlu) | 67个学科中文考试题 | | 数学能力 | [GSM8K](https://huggingface.co/datasets/openai/gsm8k) | 8.5k个样例,数学推理能力 | | 通用知识 | [MMLU](https://huggingface.co/datasets/cais/mmlu) | MMLU 是一个涵盖STEM、人文学科、社会科学等57个学科领域(例如,数学、法律、伦理等)的评测基准,旨在考察大语言模型将知识运用于问题解决的能力 | | 指令遵从 | [IFEval](https://huggingface.co/datasets/HuggingFaceH4/ifeval) | 确定了25种可验证的指令类型,500个包含一个或多个可验证指令的提示(prompts) | ##### 测试结果如下: | 模型 |逻辑推理|中文知识|数学能力|通用知识|指令遵从| |:-------:|:-------:|:-------:|:-------:|:-------:|:-------:| ||arc_challenge|cmmlu|gsm8k|mmlu|ifeval| |一招-12B-Chat|0.9331|0.7158|0.8993|0.7192|0.5432| ##### 小结: YiZhao-12B在通用评测集方面均有出色表现。 YiZhao-12B的预训练方案并没有牺牲过多模型通用能力,而且增量训练数据中的中文金融数据,也一定程度地增强了模型的逻辑推理、中文、数学等能力。 #### 2. 金融评测 金融评测主要包括以下三个测试: | 任务 | 描述 | |:-----|---------------------------------------------------------| | [CCKS-IJCKG:DFMEB](https://sigkg.cn/ccks-ijckg2024/evaluation/) | 为了推动LLM在数字金融领域的发展,并解决实际金融业务问题。招商银行联合中科院自动化所、科大讯飞股份有限公司,结合实际生产场景,推出数字金融领域评测基准(Digital Finance Model Evaluation Benchmark,DFMEB)。该评测基准包含六大场景(知识问答、文本理解、内容生成、逻辑推理、安全合规、AI智能体),涵盖69种金融任务,有利于帮助开源社区和业界快速评测公开或者自研LLM。 | | [CFBenchmark-OpenFinData](https://github.com/TongjiFinLab/CFBenchmark/blob/main/README-CN.md) | “书生•济世”中文金融评测基准(CFBenchmark)基础版本由CFBenchmark-Basic(全部为主观题,不参与测评)和CFBenchmark-OpenFinData两部分数据组成。OpenFinData是由东方财富与上海人工智能实验室联合发布的开源金融评测数据集。该数据集代表了最真实的产业场景需求,是目前场景最全、专业性最深的金融评测数据集。它基于东方财富实际金融业务的多样化丰富场景,旨在为金融科技领域的研究者和开发者提供一个高质量的数据资源。 | | [FinancelQ](https://github.com/Duxiaoman-DI/XuanYuan/tree/main/FinanceIQ) | FinanceIQ是一个专业的金融领域评测集,其涵盖了10个金融大类及36个金融小类,总计7173个单项选择题,某种程度上可客观反应模型的金融能力。 | ##### 测试结果如下: |模型|CCKS-IJCKG:DFMEB|CFBenchmark-OpenFinData|FinancelQ| |:-------:|:-------:|:-------:|:-------:| |一招-12B-Chat|0.8218|0.8798|0.6867| ##### 小结: YiZhao-12B-Chat在金融测评方面表现优异。 YiZhao-12B-Chat有着较强的专业知识能力,在金融分析、金融考核、金融安全合规、风险检查等多个专业领域维度有着极好的表现。 ## 快速开始 YiZhao-12B-Chat模型已发布在魔搭社区、昇腾社区、招行官网,请根据上述链接进行下载。下方为模型的推理部署使用方法。 ### 依赖软件 下表列出了运行一招推理所需的环境和第三方依赖。 | 软件名称 | 版本 | 作用 | |:----------------------:|:-------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------| | MindSpore | [2.4.0](https://www.mindspore.cn/install#command) | 深度学习框架 | | | MindSpore Transformers | [1.3.0](https://files.pythonhosted.org/packages/ca/7a/04137dcc0de508800bf70272c04727726fa9d9940effc0d18203745b67de/mindformers-1.3.0-py3-none-any.whl) | 大模型全流程开发套件 | | CANN | [8.0.RC3.beta1](https://www.hiascend.com/developer/download/community/result?module=cann&cann=8.0.RC3.beta1) | 昇腾异构计算架构 | | | sympy | 1.13.3 | 三方依赖包 | | | Python | 3.10 | MindSpore的使用依赖Python环境 | | | GCC | 7.3.0 | 用于编译MindSpore的C++编译器 | | 注:MindSpore官网介绍:https://www.mindspore.cn/ ### 安装指导 ##### 1. 安装CANN 下载CANN社区版,选择8.0.RC3.beta1版本,按顺序执行: ```shell ./Ascend-cann-toolkit_8.0.RC3_linux-aarch64.run --install --install-for-all --install-path=/usr/local/Ascend/ ./Ascend-cann-kernels-910b_8.0.RC3_linux-aarch64.run --install --install-path=/usr/local/Ascend/ ``` 安装完毕后执行: ```shell pip uninstall te topi hccl -y pip install sympy pip install /usr/local/Ascend/ascend-toolkit/latest/lib64/te-*-py3-none-any.whl pip install /usr/local/Ascend/ascend-toolkit/latest/lib64/hccl-*-py3-none-any.whl ``` ##### 2. 安装MindSpore ```shell pip install https://ms-release.obs.cn-north-4.myhuaweicloud.com/2.4.0/MindSpore/unified/aarch64/mindspore-2.4.0-cp310-cp310-linux_aarch64.whl --trusted-host ms-release.obs.cn-north-4.myhuaweicloud.com -i https://pypi.tuna.tsinghua.edu.cn/simple ``` 验证MindSpore与CANN是否安装成功: ```shell source /usr/local/Ascend/ascend-toolkit/set_env.sh # 每次运行时都需要设置此环境变量 python -c "import mindspore;mindspore.set_context(device_target='Ascend');mindspore.run_check()" ``` ##### 3. 安装MindSpore Transformers ```shell pip install mindformers==1.3.0 ``` ### 代码示例 此处提供一个代码示例,展示如何加载tokenizer和模型,并如何生成内容: ```python import os import time import mindspore as ms from mindformers.pipeline import pipeline os.environ["RUN_MODE"] = "predict" os.environ["MS_INTERNAL_DISABLE_CUSTOM_KERNEL_LIST"] = "PagedAttention" ms.set_context(device_id=0, mode=0, device_target='Ascend', jit_config={'jit_level': 'O0', 'infer_boost': 'on'}) pipeline_task = pipeline(task="text_generation", model="CMB_AILab/YiZhao-12B-Chat", # model_path framework='ms', model_kwargs={"use_past": True}, trust_remote_code=True ) while True: input_ = input("模型输入: ") template = f"[gMASK]