# alangyun-wisdom **Repository Path**: xwyabc/alangyun-wisdom ## Basic Information - **Project Name**: alangyun-wisdom - **Description**: 基于阿朗云封装的nlp库做二次封装,包含有文本清洗组件以及自然语言处理的封装 - **Primary Language**: Java - **License**: GPL-3.0 - **Default Branch**: master - **Homepage**: https://www.cheleon.com - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 1 - **Created**: 2024-12-27 - **Last Updated**: 2024-12-27 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # alangyun-wisdom #### 介绍 利用阿朗云自然语言理解组件库实现的分析库,包含有文本清洗组件以及自然语言处理的封装 #### 项目结构 | 工程名称 | 说明 | | -- | -- | | wisdom-cleaning | 文本清洗过滤组件,包括文本内容过滤、文件格式转换、 文件内容提取等能力 | | wisdom-element | 基础实体类 | | wisdom-expert | 专家组件库,提供文本分类、自动聚类、 短语提取、 文字和文章推荐、关键字提取、自动摘要、依存关系分析、词典以及智能模型的训练等能力 | | wisdom-utiliy | 通用的辅助组件 | | wisdom-word2vec | word2vec的java版本 | #### 使用说明 ##### 分词处理 使用起来很简单,通过提供的静态类[Experter](com.alangyun.nlp.Experter)可以满足大部分要求,下面是静态提供的子类和方法: Experter > [function] initPath 初始化词典路径 > [class] Lexicon 提供分词能力的静态类 >> [function] defaultSegment1 获取默认分词器实例即Viterbi >> [function] doubleArrayTrie 获取双数组树分词实例 >> [function] shortSegment 获取最短路径分词分词器实例 >> [function] crf 获取条件随机场分词器实例 >> [function] perceptron 获取感知机分词器实例 >> [function] segment 采用标准分词器对给定的文本分词 > [class] Converter 提供文本转换能力的静态类 >> [function] toSimple 繁转简 >> [function] toTradition 简转繁 >> [function] s2t 简转繁 >> [function] t2s 繁转简 >> [function] s2tw 简转台湾繁体 >> [function] tw2s 台湾繁体转简体 >> [function] s2hk 简转香港繁体 >> [function] hk2s 香港繁体转简体 >> [function] t2tw 繁转台湾繁体 >> [function] tw2t 台湾繁体转繁体 >> [function] t2hk 繁体转香港繁体 >> [function] hk2tw 香港繁体转台湾繁体 >> [function] tw2hk 台湾繁体转香港繁体 >> [function] toPinyin 汉字转拼音 >> [function] toPinyinList 汉字转换拼音列表(分词后的词条拼音) > [class] Extractor >> [function] phrase 提取短语 >> [function] words 提取词语 >> [function] keywords 提取关键词 >> [function] neologism 新词发现 >> [function] customSummary 自动摘要 >> [function] summary 自动摘要 ##### 文本分类 文本分类提供两种分类模式,一种是基于词典的文本分类,需要词典库支持;一种是基于词向量模型的文本分类 + 基于词典的文本分类 > 使用 [NaiveBayesClassifier](com.alangyun.nlp.classification.NaiveBayesClassifier)类实现。 + 基于词向量模型的文本分类 > 使用 [W2VClassifier](com.alangyun.nlp.classification.W2VClassifier)类实现。 ##### 文本汇聚 文本汇聚提供三种支持,分别为基于K-MEANS实现的汇聚,基于重复二分类发实现的汇聚,第三种是基于词向量模型实现的汇聚 + 基于K-MEANS > 使用[KMeansCluster](com.alangyun.nlp.cluster.KMeansCluster)实现。 + 基于重复二分类法 > 使用[RepeatedBisectionCluster](com.alangyun.nlp.cluster.RepeatedBisectionCluster)实现。 + 基于词袋模型 > 使用[W2VCluster](com.alangyun.nlp.cluster.W2VCluster)实现。 ##### 内容推荐 内容推荐包括词条推荐和文章推荐两种 +词条推荐 > 使用[W2VSuggester](com.alangyun.nlp.suggestion.W2VSuggester)实现。 +文章推荐 > 使用[SentenceSuggester](com.alangyun.nlp.suggestion.SentenceSuggester)实现。 ##### 训练 训练包括对词典的重新训练和对主题分类模型以及推荐模型的训练。 + 词典的重新训练 > 词典模型训练提供以下方法来训练不同算法使用的词典库 > + [makeCore](com.alangyun.nlp.maker.DictionaryMaker#makeCore) 核心词典的训练,其他的训练基础都需要对原始文本分词后才能训练。 > + [makePecepton](com.alangyun.nlp.maker.DictionaryMaker#makePecepton) 感知机词典的训练 > + [makeCRF](com.alangyun.nlp.maker.DictionaryMaker#makeCRF) 条件随机词典模型的训练 + 推荐模型的训练 > + [W2VWordModelMaker](com.alangyun.nlp.maker.W2VWordModelMaker)词向量模型训练 + 主题分类模型训练 > + [BayesClassifyModelMaker](com.alangyun.nlp.maker.BayesClassifyModelMaker)基于词典的分类模型训练 > + [W2VClassifyModelMaker](com.alangyun.nlp.maker.W2VClassifyModelMaker)基于词向量的分类模型训练 ### 作者 [阿朗云](https://www.cheleon.com)