# LLM 对话 token 数量计算工具 **Repository Path**: championwang/deepseek_v3_tokenizer ## Basic Information - **Project Name**: LLM 对话 token 数量计算工具 - **Description**: DeepSeek V3 Tokenizer 是一个基于 Hugging Face Transformers 库实现的 API 服务,用于计算文本的 token 数量及获取对应的 token IDs。该服务使用 DeepSeek 的 tokenizer 模型,支持高达 16384 个 token 的序列长度。 - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-10-17 - **Last Updated**: 2025-12-10 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # DeepSeek V3 Tokenizer DeepSeek V3 Tokenizer 是一个基于 Hugging Face Transformers 库实现的 API 服务,用于计算文本的 token 数量及获取对应的 token IDs。该服务使用 DeepSeek 的 tokenizer 模型,支持高达 16384 个 token 的序列长度。 ## 功能特性 - 计算输入文本的 token 数量 - 获取文本对应的 token ID 列表 - 基于 FastAPI 构建的高性能 API 服务 - 支持 Docker 部署 - 支持处理最大 16384 tokens 的长文本 ## 目录结构 ``` . ├── Dockerfile # Docker 配置文件 ├── app.py # 主程序文件 ├── requirements.txt # 项目依赖 ├── tokenizer.json # Tokenizer 模型文件 ├── tokenizer_config.json # Tokenizer 配置文件 └── 构建和运行.md # 构建和运行说明 ``` ## 环境要求 - Python 3.9+ - transformers==4.57.0 - fastapi==0.119.0 - uvicorn==0.37.0 ## 安装与运行 ### 方法一:直接运行 1. 安装依赖: ```bash pip install -r requirements.txt ``` 2. 运行服务: ```bash python app.py ``` ### 方法二:使用 Docker 1. 构建 Docker 镜像: ```bash docker build -t deepseek_v3_tokenizer . ``` 2. 运行 Docker 容器: ```bash docker run -d -p 8000:8000 deepseek_v3_tokenizer ``` ## API 接口 服务启动后,默认监听在 `8000` 端口。 ### Tokenize 接口 - **URL**: `/tokenize` - **方法**: POST - **参数**: ```json { "text": "需要计算 token 的文本内容" } ``` - **响应**: ```json { "token_count": 10, "token_ids": [1, 234, 567, ...] } ``` ### 示例请求 ```bash curl -X POST "http://localhost:8000/tokenize" \ -H "Content-Type: application/json" \ -d '{"text": "OpenAI 模型的 Tokenizer 实现"}' ``` ## 配置说明 - 模型最大长度:16384 tokens - 默认端口:8000 - 支持的特殊 tokens: - BOS (Beginning of Sentence): `<|begin▁of▁sentence|>` - EOS (End of Sentence): `<|end▁of▁sentence|>` - PAD (Padding): `<|end▁of▁sentence|>` ## 许可证 该项目基于 MIT 许可证发布。