# 自然语言处理集合应用程序 **Repository Path**: z314314/Natural-Language-Processing-Collection-Application ## Basic Information - **Project Name**: 自然语言处理集合应用程序 - **Description**: 自然语言处理集合应用程序 Natural Language Processing Collection Application - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-05-27 - **Last Updated**: 2025-05-27 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 自然语言处理集合应用程序 Natural Language Processing Collection Application ## 系统设计 - 系统测试环境: - 操作系统:Windows 10 - Python版本:3.8 - 主要依赖库:PyQt5、TensorFlow、HanLP等 ### 系统架构 - 系统采用三层架构设计: - 表示层:基于PyQt5的图形用户界面,负责与用户交互; - 业务逻辑层:处理核心NLP算法,包括分词、命名实体识别和文本分类; - 数据层:存储和管理模型参数及训练数据。 ## 功能模块 - 系统主要包含三大功能模块: - 中文分词模块:采用BiLSTM模型实现中文分词; - 命名实体识别模块:支持HMM、感知机和CRF三种模型; - 文本分类模块:提供朴素贝叶斯和SVM两种分类器。 ## 核心代码结构 - nlp-Applications-master/ - ├── main_window.py # 主程序入口,负责 GUI 界面逻辑和功能集成 - ├── login2.ui # UI 文件,用于定义主界面布局 - ├── login2.py # 编译后UI 文件 - ├── wordsegmentation/ - │ ├── wordsegmentation.py # 中文分词模块,基于 BiLSTM 模型 - │ ├── rainSet.txt # 分词训练数据 - │ ├── model/ - │ ├── bilstm_model.h5 # 训练好的分词模型 - │ ├── char2idx.pkl # 字符到索引的映射文件 - ├── NER/ # 命名实体识别模块 - │ ├── hmm_ner.py # 基于隐马尔可夫模型(HMM) - │ ├── perceptron_ner.py # 基于感知机模型 - │ ├── crf_ner.py # 基于条件随机场(CRF) - ├── classification/ # 文本分类模块 - │ ├── text_classification.py # 基于朴素贝叶斯分类器 - │ ├── svm_text_classification.py # 基于支持向量机(SVM) - ├── images/ # 主界面中显示的图片 - ├── README.md # 项目说明文件 - envs/myenv/Lib/site-packages/pyhanlp/static/data/test/ - ├──pku98/ # 命名实体识别 - │ ├── pku98.zip # PKU 标注语料库压缩包 - │ ├── 199801-train.txt # PKU 标注语料库训练数据 - │ ├── ner.bin # 训练好的 NER 模型文件 - │ ├── template.txt # CRF 模板文件 - ├──搜狗文本分类语料库迷你版/ - │ ├── 健康 - │ ├── 教育 - │ ├── 军事 - │ ├── 汽车 - │ ├── 体育 - ├── 搜狗文本分类语料库迷你版.ser # 训练好的贝叶斯模型文件 - ├── 搜狗文本分类语料库迷你版.svm.ser # 训练好的svm模型文件