# spacy-models

**Repository Path**: GodJason/spacy-models

## Basic Information

- **Project Name**: spacy-models
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-07-14
- **Last Updated**: 2025-07-14

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

spaCy模型库
此仓库包含spaCy NLP库的模型发布版本。有关如何下载、安装和使用模型的更多信息，请参阅模型文档。

⚠️ 重要提示：由于模型文件可能非常大且主要包含二进制数据，我们无法直接在GitHub仓库中提供这些文件。取而代之的是，我们将模型以.whl和.tar.gz文件的形式添加到发布版本中，这样仍能保持公开的发布历史记录。

快速入门
要安装特定模型，运行以下命令（以en_core_web_sm为例）：

bash
python -m spacy download [模型名称]
模型目录
spaCy v3.x 模型目录

spaCy v3.x 模型比较

spaCy v2.x 模型目录

spaCy v2.x 模型比较

模型命名规范
spaCy要求所有模型包遵循[lang]_[name]的命名约定。我们提供的模型名称包含三个部分：

类型（模型能力）：

core：包含词性标注、依存解析、词形还原和命名实体识别的通用模型

dep：仅包含词性标注、依存解析和词形还原

ent：仅包含命名实体识别

sent：仅包含句子分割

领域（训练文本类型）：

web：网络文本（博客、新闻、评论）

news：新闻文本

大小：

sm：不包含词向量

md：包含2万个唯一词向量的精简版（约50万词）

lg：包含约50万词向量的大规模版

例如，en_core_web_md是一个中等规模的英语模型，基于网络文本训练，包含词性标注器、依存解析器、词形还原器、命名实体识别器和2万个唯一词向量。

模型版本控制
模型版本号a.b.c表示：

a：spaCy主版本号（如2表示spaCy v2.x）

b：spaCy次版本号（如3表示spaCy v2.3.x）

c：模型版本号（不同训练配置的区分）

详细的兼容性信息请参见compatibility.json。

旧版本支持
如果您使用旧版本（v1.6.0或更早），仍可通过以下命令下载安装：

bash
python -m spacy.en.download all
python -m spacy.de.download all
模型下载安装
bash
# 自动下载与当前spaCy兼容的最佳版本
python -m spacy download en_core_web_sm

# 手动安装（支持本地路径或URL）
pip install /path/to/en_core_web_sm-3.0.0.tar.gz
pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.0.0/en_core_web_sm-3.0.0.tar.gz
加载使用模型
python
import spacy
nlp = spacy.load("en_core_web_sm")  # 通过名称加载
doc = nlp("这是一个句子。")

# 或直接导入模型包
import en_core_web_sm
nlp = en_core_web_sm.load()
手动下载安装结构
text
└── en_core_web_md-3.0.0.tar.gz
    ├── setup.py
    ├── meta.json
    └── en_core_web_md
        ├── __init__.py
        └── en_core_web_md-3.0.0
            ├── config.cfg
            ├── meta.json
            └── ...  # 组件数据目录
v1.x版本模型命名规范
类型：core（通用模型）或depent（仅词汇/句法/实体）

领域：web或news

大小：sm/md/lg

问题报告
如发现模型问题，请在spaCy问题跟踪器提交报告。请注意，由于统计模型的特性，其表现总会存在一定错误率，但某些特定错误可能反映训练特征提取或优化代码的深层问题。