# alangyun-wisdom

**Repository Path**: xwyabc/alangyun-wisdom

## Basic Information

- **Project Name**: alangyun-wisdom
- **Description**: 基于阿朗云封装的nlp库做二次封装，包含有文本清洗组件以及自然语言处理的封装
- **Primary Language**: Java
- **License**: GPL-3.0
- **Default Branch**: master
- **Homepage**: https://www.cheleon.com
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 1
- **Created**: 2024-12-27
- **Last Updated**: 2024-12-27

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# alangyun-wisdom

#### 介绍
利用阿朗云自然语言理解组件库实现的分析库，包含有文本清洗组件以及自然语言处理的封装

#### 项目结构

| 工程名称 | 说明 |
| -- | -- |
| wisdom-cleaning | 文本清洗过滤组件，包括文本内容过滤、文件格式转换、 文件内容提取等能力 |
| wisdom-element | 基础实体类 |
| wisdom-expert | 专家组件库，提供文本分类、自动聚类、 短语提取、 文字和文章推荐、关键字提取、自动摘要、依存关系分析、词典以及智能模型的训练等能力 |
| wisdom-utiliy | 通用的辅助组件 |
| wisdom-word2vec | word2vec的java版本 |


#### 使用说明

##### 分词处理
使用起来很简单，通过提供的静态类[Experter](com.alangyun.nlp.Experter)可以满足大部分要求,下面是静态提供的子类和方法：

Experter
> [function] initPath 初始化词典路径

> [class] Lexicon 提供分词能力的静态类

>> [function] defaultSegment1 获取默认分词器实例即Viterbi

>> [function] doubleArrayTrie 获取双数组树分词实例

>> [function] shortSegment 获取最短路径分词分词器实例

>> [function] crf 获取条件随机场分词器实例

>> [function] perceptron 获取感知机分词器实例

>> [function] segment 采用标准分词器对给定的文本分词

> [class] Converter 提供文本转换能力的静态类

>> [function] toSimple 繁转简

>> [function] toTradition 简转繁

>> [function] s2t 简转繁

>> [function] t2s 繁转简

>> [function] s2tw 简转台湾繁体

>> [function] tw2s 台湾繁体转简体

>> [function] s2hk 简转香港繁体

>> [function] hk2s 香港繁体转简体

>> [function] t2tw 繁转台湾繁体

>> [function] tw2t 台湾繁体转繁体

>> [function] t2hk 繁体转香港繁体

>> [function] hk2tw 香港繁体转台湾繁体

>> [function] tw2hk 台湾繁体转香港繁体

>> [function] toPinyin 汉字转拼音

>> [function] toPinyinList 汉字转换拼音列表（分词后的词条拼音）

> [class] Extractor

>> [function] phrase 提取短语

>> [function] words 提取词语

>> [function] keywords 提取关键词

>> [function] neologism 新词发现

>> [function] customSummary 自动摘要

>> [function] summary 自动摘要

##### 文本分类
文本分类提供两种分类模式，一种是基于词典的文本分类，需要词典库支持；一种是基于词向量模型的文本分类

+ 基于词典的文本分类

> 使用 [NaiveBayesClassifier](com.alangyun.nlp.classification.NaiveBayesClassifier)类实现。

+ 基于词向量模型的文本分类

> 使用 [W2VClassifier](com.alangyun.nlp.classification.W2VClassifier)类实现。

##### 文本汇聚
文本汇聚提供三种支持，分别为基于K-MEANS实现的汇聚，基于重复二分类发实现的汇聚，第三种是基于词向量模型实现的汇聚

+ 基于K-MEANS

> 使用[KMeansCluster](com.alangyun.nlp.cluster.KMeansCluster)实现。

+ 基于重复二分类法

> 使用[RepeatedBisectionCluster](com.alangyun.nlp.cluster.RepeatedBisectionCluster)实现。

+ 基于词袋模型

> 使用[W2VCluster](com.alangyun.nlp.cluster.W2VCluster)实现。

##### 内容推荐
内容推荐包括词条推荐和文章推荐两种

+词条推荐

> 使用[W2VSuggester](com.alangyun.nlp.suggestion.W2VSuggester)实现。

+文章推荐

> 使用[SentenceSuggester](com.alangyun.nlp.suggestion.SentenceSuggester)实现。


##### 训练
训练包括对词典的重新训练和对主题分类模型以及推荐模型的训练。

+ 词典的重新训练

> 词典模型训练提供以下方法来训练不同算法使用的词典库

> + [makeCore](com.alangyun.nlp.maker.DictionaryMaker#makeCore) 核心词典的训练，其他的训练基础都需要对原始文本分词后才能训练。

> + [makePecepton](com.alangyun.nlp.maker.DictionaryMaker#makePecepton) 感知机词典的训练

> + [makeCRF](com.alangyun.nlp.maker.DictionaryMaker#makeCRF) 条件随机词典模型的训练

+ 推荐模型的训练

> + [W2VWordModelMaker](com.alangyun.nlp.maker.W2VWordModelMaker)词向量模型训练

+ 主题分类模型训练

> + [BayesClassifyModelMaker](com.alangyun.nlp.maker.BayesClassifyModelMaker)基于词典的分类模型训练

> + [W2VClassifyModelMaker](com.alangyun.nlp.maker.W2VClassifyModelMaker)基于词向量的分类模型训练


### 作者
 [阿朗云](https://www.cheleon.com)