# Subject word extraction

**Repository Path**: simon1239/subject-word-extraction

## Basic Information

- **Project Name**: Subject word extraction
- **Description**: No description available
- **Primary Language**: Python
- **License**: MulanPSL-2.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2024-08-16
- **Last Updated**: 2025-02-17

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# Subject word extraction

#### 介绍
{}


#### 软件架构
软件架构说明


#### 安装教程

1.  xxxx
2.  xxxx
3.  xxxx

#### 使用说明

1.  xxxx
2.  xxxx
3.  xxxx

#### 参与贡献

1.  Fork 本仓库


#### 分词工具汇总
![alt text](image.png)

1. jieba
```

import jieba

text = "自然语言处理是人工智能的重要领域。"
print(jieba.lcut(text))  # 精确模式
print(jieba.lcut(text, cut_all=True))  # 全模式
print(jieba.lcut_for_search(text))  # 搜索引擎模式


```

2. HanLP

```
from pyhanlp import *

print(HanLP.segment("自然语言处理是人工智能的重要领域。"))

```

3. THULAC (清华大学中文分词工具)

```
from thulac import thulac

thulac_seg = thulac(seg_only=False)  # 分词并标注词性
print(thulac_seg.cut("自然语言处理是人工智能的重要领域。"))

```

4. StanfordNLP (Stanza)

```
import stanza

nlp = stanza.Pipeline(lang='zh', processors='tokenize')
doc = nlp("自然语言处理是人工智能的重要领域。")
for sentence in doc.sentences:
    print([word.text for word in sentence.words])

```

5. PKUSEG (北京大学中文分词工具)

```
import pkuseg

seg = pkuseg.pkuseg()
text = "自然语言处理是人工智能的重要领域。"
print(seg.cut(text))


```

6. LTP (语言技术平台)
```
from ltp import LTP

ltp = LTP()
text = "自然语言处理是人工智能的重要领域。"
segments, _ = ltp.seg([text])
print(segments)

```

7. SpaCy + 中文模型
```
import spacy

nlp = spacy.load("zh_core_web_sm")
doc = nlp("自然语言处理是人工智能的重要领域。")
print([token.text for token in doc])

```

8. SnowNLP
```
from snownlp import SnowNLP

s = SnowNLP("自然语言处理是人工智能的重要领域。")
print(s.words)

```

9. 自然语言处理库 (NLTK)
```
from nltk.tokenize import RegexpTokenizer

tokenizer = RegexpTokenizer(r'[\u4e00-\u9fff]+')
text = "自然语言处理是人工智能的重要领域。"
print(tokenizer.tokenize(text))

```

#### 分词工具安装

1. HanLP安装