# 结巴分词服务 **Repository Path**: obaby/baby-jb-server ## Basic Information - **Project Name**: 结巴分词服务 - **Description**: 结巴分词服务 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2026-01-15 - **Last Updated**: 2026-01-15 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 结巴分词HTTP服务 基于Flask和jieba的本地HTTP分词服务。 ## 安装依赖 ```bash pip install -r requirements.txt ``` ## 启动服务 ```bash python app.py ``` 服务将在 `http://localhost:5000` 启动。 ## API接口 ### 1. 基础分词 `/cut` **请求方式**: POST **请求体**: ```json { "text": "我爱自然语言处理" } ``` **响应**: ```json { "text": "我爱自然语言处理", "result": ["我", "爱", "自然语言处理"] } ``` ### 2. 全模式分词 `/cut_all` **请求方式**: POST **请求体**: ```json { "text": "我爱自然语言处理" } ``` **响应**: 返回所有可能的分词组合 ### 3. 搜索引擎模式分词 `/cut_search` **请求方式**: POST **请求体**: ```json { "text": "我爱自然语言处理" } ``` **响应**: 适合搜索引擎的分词结果 ### 4. 关键词提取 `/extract_tags` **请求方式**: POST **请求体**: ```json { "text": "这是一段很长的文本内容...", "topK": 20, "withWeight": false } ``` **参数说明**: - `text`: 要提取关键词的文本(必需) - `topK`: 返回前K个关键词,默认20(可选) - `withWeight`: 是否返回权重,默认false(可选) **响应**: ```json { "text": "这是一段很长的文本内容...", "topK": 20, "result": ["关键词1", "关键词2", ...] } ``` ## 使用示例 ### 使用curl测试 ```bash # 基础分词 curl -X POST http://localhost:5000/cut \ -H "Content-Type: application/json" \ -d '{"text": "我爱自然语言处理"}' # 关键词提取 curl -X POST http://localhost:5000/extract_tags \ -H "Content-Type: application/json" \ -d '{"text": "自然语言处理是计算机科学领域与人工智能领域中的一个重要方向", "topK": 5}' ``` ### 使用Python测试 ```python import requests # 基础分词 response = requests.post('http://localhost:5000/cut', json={'text': '我爱自然语言处理'}) print(response.json()) # 关键词提取 response = requests.post('http://localhost:5000/extract_tags', json={'text': '自然语言处理是计算机科学领域与人工智能领域中的一个重要方向', 'topK': 5}) print(response.json()) ``` ## WordPress 集成 ### 安装步骤 1. 将 `wordpress_jieba_example.php` 中的代码添加到你的主题的 `functions.php` 文件中 2. 或者创建一个自定义插件,将代码放入插件文件中 3. 确保jieba分词服务正在运行(`http://localhost:5000`) ### 基本使用 ```php // 基础分词 $segments = jieba_cut('我爱自然语言处理'); // 返回: ['我', '爱', '自然语言处理'] // 全模式分词 $segments = jieba_cut_all('我爱自然语言处理'); // 搜索引擎模式分词 $segments = jieba_cut_for_search('我爱自然语言处理'); // 提取关键词 $keywords = jieba_extract_tags('这是一段很长的文本内容...', 10); // 返回前10个关键词 ``` ### 短代码使用 在文章或页面中使用短代码: ``` [jieba_cut text="我爱自然语言处理" mode="cut"] ``` 参数说明: - `text`: 要分词的文本(必需) - `mode`: 分词模式,可选值:`cut`(默认)、`cut_all`、`cut_search`、`extract_tags` - `topk`: 当mode为extract_tags时,指定返回前K个关键词(默认20) ### REST API 端点 WordPress还提供了REST API端点: ``` POST /wp-json/jieba/v1/cut POST /wp-json/jieba/v1/extract_tags ``` 使用示例: ```bash curl -X POST http://your-site.com/wp-json/jieba/v1/cut \ -H "Content-Type: application/json" \ -d '{"text": "我爱自然语言处理"}' ``` ### 更多示例 查看 `wordpress_usage_examples.php` 文件,了解以下使用场景: - 在主题模板中使用分词 - 自动为文章生成标签 - 增强搜索功能 - 创建自定义小工具 - AJAX调用分词服务 - 批量处理已有文章 ### 配置服务地址 如果jieba服务不在本地5000端口,可以修改代码中的服务URL: ```php define('JIEBA_SERVICE_URL', 'http://your-server:5000'); ```