# spacy-models **Repository Path**: GodJason/spacy-models ## Basic Information - **Project Name**: spacy-models - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-07-14 - **Last Updated**: 2025-07-14 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README spaCy模型库 此仓库包含spaCy NLP库的模型发布版本。有关如何下载、安装和使用模型的更多信息,请参阅模型文档。 ⚠️ 重要提示:由于模型文件可能非常大且主要包含二进制数据,我们无法直接在GitHub仓库中提供这些文件。取而代之的是,我们将模型以.whl和.tar.gz文件的形式添加到发布版本中,这样仍能保持公开的发布历史记录。 快速入门 要安装特定模型,运行以下命令(以en_core_web_sm为例): bash python -m spacy download [模型名称] 模型目录 spaCy v3.x 模型目录 spaCy v3.x 模型比较 spaCy v2.x 模型目录 spaCy v2.x 模型比较 模型命名规范 spaCy要求所有模型包遵循[lang]_[name]的命名约定。我们提供的模型名称包含三个部分: 类型(模型能力): core:包含词性标注、依存解析、词形还原和命名实体识别的通用模型 dep:仅包含词性标注、依存解析和词形还原 ent:仅包含命名实体识别 sent:仅包含句子分割 领域(训练文本类型): web:网络文本(博客、新闻、评论) news:新闻文本 大小: sm:不包含词向量 md:包含2万个唯一词向量的精简版(约50万词) lg:包含约50万词向量的大规模版 例如,en_core_web_md是一个中等规模的英语模型,基于网络文本训练,包含词性标注器、依存解析器、词形还原器、命名实体识别器和2万个唯一词向量。 模型版本控制 模型版本号a.b.c表示: a:spaCy主版本号(如2表示spaCy v2.x) b:spaCy次版本号(如3表示spaCy v2.3.x) c:模型版本号(不同训练配置的区分) 详细的兼容性信息请参见compatibility.json。 旧版本支持 如果您使用旧版本(v1.6.0或更早),仍可通过以下命令下载安装: bash python -m spacy.en.download all python -m spacy.de.download all 模型下载安装 bash # 自动下载与当前spaCy兼容的最佳版本 python -m spacy download en_core_web_sm # 手动安装(支持本地路径或URL) pip install /path/to/en_core_web_sm-3.0.0.tar.gz pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.0.0/en_core_web_sm-3.0.0.tar.gz 加载使用模型 python import spacy nlp = spacy.load("en_core_web_sm") # 通过名称加载 doc = nlp("这是一个句子。") # 或直接导入模型包 import en_core_web_sm nlp = en_core_web_sm.load() 手动下载安装结构 text └── en_core_web_md-3.0.0.tar.gz ├── setup.py ├── meta.json └── en_core_web_md ├── __init__.py └── en_core_web_md-3.0.0 ├── config.cfg ├── meta.json └── ... # 组件数据目录 v1.x版本模型命名规范 类型:core(通用模型)或depent(仅词汇/句法/实体) 领域:web或news 大小:sm/md/lg 问题报告 如发现模型问题,请在spaCy问题跟踪器提交报告。请注意,由于统计模型的特性,其表现总会存在一定错误率,但某些特定错误可能反映训练特征提取或优化代码的深层问题。