# Subject word extraction **Repository Path**: simon1239/subject-word-extraction ## Basic Information - **Project Name**: Subject word extraction - **Description**: No description available - **Primary Language**: Python - **License**: MulanPSL-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2024-08-16 - **Last Updated**: 2025-02-17 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Subject word extraction #### 介绍 {} #### 软件架构 软件架构说明 #### 安装教程 1. xxxx 2. xxxx 3. xxxx #### 使用说明 1. xxxx 2. xxxx 3. xxxx #### 参与贡献 1. Fork 本仓库 #### 分词工具汇总 ![alt text](image.png) 1. jieba ``` import jieba text = "自然语言处理是人工智能的重要领域。" print(jieba.lcut(text)) # 精确模式 print(jieba.lcut(text, cut_all=True)) # 全模式 print(jieba.lcut_for_search(text)) # 搜索引擎模式 ``` 2. HanLP ``` from pyhanlp import * print(HanLP.segment("自然语言处理是人工智能的重要领域。")) ``` 3. THULAC (清华大学中文分词工具) ``` from thulac import thulac thulac_seg = thulac(seg_only=False) # 分词并标注词性 print(thulac_seg.cut("自然语言处理是人工智能的重要领域。")) ``` 4. StanfordNLP (Stanza) ``` import stanza nlp = stanza.Pipeline(lang='zh', processors='tokenize') doc = nlp("自然语言处理是人工智能的重要领域。") for sentence in doc.sentences: print([word.text for word in sentence.words]) ``` 5. PKUSEG (北京大学中文分词工具) ``` import pkuseg seg = pkuseg.pkuseg() text = "自然语言处理是人工智能的重要领域。" print(seg.cut(text)) ``` 6. LTP (语言技术平台) ``` from ltp import LTP ltp = LTP() text = "自然语言处理是人工智能的重要领域。" segments, _ = ltp.seg([text]) print(segments) ``` 7. SpaCy + 中文模型 ``` import spacy nlp = spacy.load("zh_core_web_sm") doc = nlp("自然语言处理是人工智能的重要领域。") print([token.text for token in doc]) ``` 8. SnowNLP ``` from snownlp import SnowNLP s = SnowNLP("自然语言处理是人工智能的重要领域。") print(s.words) ``` 9. 自然语言处理库 (NLTK) ``` from nltk.tokenize import RegexpTokenizer tokenizer = RegexpTokenizer(r'[\u4e00-\u9fff]+') text = "自然语言处理是人工智能的重要领域。" print(tokenizer.tokenize(text)) ``` #### 分词工具安装 1. HanLP安装