English | 简体中文
DeepKE-LLM: A Large Language Model Based
Knowledge Extraction Toolkit
大模型时代, DeepKE-LLM采用全新的环境依赖
conda create -n deepke-llm python=3.9
conda activate deepke-llm
cd example/llm
pip install -r requirements.txt
注意!!是example/llm文件夹下的 requirements.txt
名称 | 下载 | 数量 | 描述 |
---|---|---|---|
InstructIE-train | Google drive HuggingFace 百度云盘 |
30w+ | InstructIE训练集,基于弱监督构建得到,包含一定程度的噪音数据 |
InstructIE-valid | Google drive HuggingFace 百度云盘 |
2000+ | InstructIE验证集 |
InstructIE-test | Google drive HuggingFace 百度云盘 |
2000+ | InstructIE测试集 |
train.json, valid.json | Google drive | 5000 | CCKS2023 开放环境下的知识图谱构建与补全评测任务一:指令驱动的自适应知识图谱构建 中的初赛训练集及测试集 |
InstructIE-train
包含InstructIE-zh.json
、InstructIE-en.json
两个文件, 每个文件均包含以下字段:'id'
(唯一标识符)、'cate'
(文本主题)、'entity'
、'relation'
(三元组)字段,可以通过'entity'
、'relation'
自由构建抽取的指令和输出。
InstructIE-valid
、InstructIE-test
分别是验证集和测试集, 包含zh
和en
双语。
train.json
:字段含义同train.json
,'instruction'
、'output'
都只有1种格式,也可以通过'relation'
自由构建抽取的指令和输出。
valid.json
:字段含义同train.json
,但是经过众包标注,更加准确。
以下是各字段的说明:
字段 | 说明 |
---|---|
id | 唯一标识符 |
cate | 文本input对应的主题(共12种) |
input | 模型输入文本(需要抽取其中涉及的所有关系三元组) |
instruction | 模型进行抽取任务的指令 |
output | 模型期望输出 |
entity | 实体(entity, entity_type) |
relation | input中涉及的关系三元组(head, relation, tail) |
LLaMA,它是一组从7B到65B参数的基础语言模型。我们还提供了基于KnowLM框架的抽取大模型智析
的支持。其首先(1)使用中英双语语料首先对LLaMA(13B)进行进一步全量预训练,在尽可能保留原来的英文和代码能力的前提下,进一步提高模型对于中文理解能力和知识储备;接着(2)使用指令数据集对第一步的模型微调,来提高语言模型对于人类指令的理解。模型详细信息请参考KnowLM.
为了更好地处理知识图谱构建中的关系三元组抽取(RTE)任务,我们设计了代码形式的提示建模关系三元组的结构,并使用代码语言模型(Code-LLM)生成更准确的预测。代码形式提示构建的关键步骤是将(文本,输出三元组)对转换成Python中的语义等价的程序语言。
In-Context Learning 是一种指导大语言模型的方法,可以提升其在特定任务上的表现。它通过在特定上下文中进行迭代学习,对模型进行微调和训练,以使其更好地理解和应对特定领域的需求。通过 In-Context Learning
,我们可以让大语言模型具备信息抽取、数据增强以及指令驱动的知识图谱构建等功能。
LoRA通过学习秩分解矩阵对来减少可训练参数的数量,同时冻结原始权重。这大大降低了适用于特定任务的大型语言模型的存储需求,并在部署期间实现了高效的任务切换,而无需引入推理延迟。详细可查看原论文LoRA: Low-Rank Adaptation of Large Language Models.
PT方法,即P-Tuning方法,参考ChatGLM官方代码 ,是一种针对于大模型的soft-prompt方法。 P-Tuning,仅对大模型的Embedding加入新的参数。 P-Tuning-V2,将大模型的Embedding和每一层前都加上新的参数。
如果您使用了本项目代码, 烦请引用下列论文:
@misc{knowlm,
author = {Ningyu Zhang and Jintian Zhang and Xiaohan Wang and Honghao Gui and Kangwei Liu and Yinuo Jiang and Xiang Chen and Shengyu Mao and Shuofei Qiao and Yuqi Zhu and Zhen Bi and Jing Chen and Xiaozhuan Liang and Yixin Ou and Runnan Fang and Zekun Xi and Xin Xu and Lei Li and Peng Wang and Mengru Wang and Yunzhi Yao and Bozhong Tian and Yin Fang and Guozhou Zheng and Huajun Chen},
title = {KnowLM Technical Report},
year = {2023},
url = {http://knowlm.zjukg.cn/},
}
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。