# 结巴分词服务

**Repository Path**: obaby/baby-jb-server

## Basic Information

- **Project Name**: 结巴分词服务
- **Description**: 结巴分词服务
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2026-01-15
- **Last Updated**: 2026-01-15

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 结巴分词HTTP服务

基于Flask和jieba的本地HTTP分词服务。

## 安装依赖

```bash
pip install -r requirements.txt
```

## 启动服务

```bash
python app.py
```

服务将在 `http://localhost:5000` 启动。

## API接口

### 1. 基础分词 `/cut`

**请求方式**: POST

**请求体**:
```json
{
  "text": "我爱自然语言处理"
}
```

**响应**:
```json
{
  "text": "我爱自然语言处理",
  "result": ["我", "爱", "自然语言处理"]
}
```

### 2. 全模式分词 `/cut_all`

**请求方式**: POST

**请求体**:
```json
{
  "text": "我爱自然语言处理"
}
```

**响应**: 返回所有可能的分词组合

### 3. 搜索引擎模式分词 `/cut_search`

**请求方式**: POST

**请求体**:
```json
{
  "text": "我爱自然语言处理"
}
```

**响应**: 适合搜索引擎的分词结果

### 4. 关键词提取 `/extract_tags`

**请求方式**: POST

**请求体**:
```json
{
  "text": "这是一段很长的文本内容...",
  "topK": 20,
  "withWeight": false
}
```

**参数说明**:
- `text`: 要提取关键词的文本（必需）
- `topK`: 返回前K个关键词，默认20（可选）
- `withWeight`: 是否返回权重，默认false（可选）

**响应**:
```json
{
  "text": "这是一段很长的文本内容...",
  "topK": 20,
  "result": ["关键词1", "关键词2", ...]
}
```

## 使用示例

### 使用curl测试

```bash
# 基础分词
curl -X POST http://localhost:5000/cut \
  -H "Content-Type: application/json" \
  -d '{"text": "我爱自然语言处理"}'

# 关键词提取
curl -X POST http://localhost:5000/extract_tags \
  -H "Content-Type: application/json" \
  -d '{"text": "自然语言处理是计算机科学领域与人工智能领域中的一个重要方向", "topK": 5}'
```

### 使用Python测试

```python
import requests

# 基础分词
response = requests.post('http://localhost:5000/cut', 
                        json={'text': '我爱自然语言处理'})
print(response.json())

# 关键词提取
response = requests.post('http://localhost:5000/extract_tags',
                        json={'text': '自然语言处理是计算机科学领域与人工智能领域中的一个重要方向',
                              'topK': 5})
print(response.json())
```

## WordPress 集成

### 安装步骤

1. 将 `wordpress_jieba_example.php` 中的代码添加到你的主题的 `functions.php` 文件中
2. 或者创建一个自定义插件，将代码放入插件文件中
3. 确保jieba分词服务正在运行（`http://localhost:5000`）

### 基本使用

```php
// 基础分词
$segments = jieba_cut('我爱自然语言处理');
// 返回: ['我', '爱', '自然语言处理']

// 全模式分词
$segments = jieba_cut_all('我爱自然语言处理');

// 搜索引擎模式分词
$segments = jieba_cut_for_search('我爱自然语言处理');

// 提取关键词
$keywords = jieba_extract_tags('这是一段很长的文本内容...', 10);
// 返回前10个关键词
```

### 短代码使用

在文章或页面中使用短代码：

```
[jieba_cut text="我爱自然语言处理" mode="cut"]
```

参数说明：
- `text`: 要分词的文本（必需）
- `mode`: 分词模式，可选值：`cut`（默认）、`cut_all`、`cut_search`、`extract_tags`
- `topk`: 当mode为extract_tags时，指定返回前K个关键词（默认20）

### REST API 端点

WordPress还提供了REST API端点：

```
POST /wp-json/jieba/v1/cut
POST /wp-json/jieba/v1/extract_tags
```

使用示例：
```bash
curl -X POST http://your-site.com/wp-json/jieba/v1/cut \
  -H "Content-Type: application/json" \
  -d '{"text": "我爱自然语言处理"}'
```

### 更多示例

查看 `wordpress_usage_examples.php` 文件，了解以下使用场景：

- 在主题模板中使用分词
- 自动为文章生成标签
- 增强搜索功能
- 创建自定义小工具
- AJAX调用分词服务
- 批量处理已有文章

### 配置服务地址

如果jieba服务不在本地5000端口，可以修改代码中的服务URL：

```php
define('JIEBA_SERVICE_URL', 'http://your-server:5000');
```