# RPG **Repository Path**: ye_sheng0839/RPG ## Basic Information - **Project Name**: RPG - **Description**: 基于BERTopic模型的主题演化分析 - **Primary Language**: Python - **License**: MIT - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-12-02 - **Last Updated**: 2025-12-15 ## Categories & Tags **Categories**: Uncategorized **Tags**: Nlp, AI ## README # RPG--Research Pathways of Growth 基于BERTopic模型的主题演化分析,通过自然语言处理和机器学习技术,实现从多源文档中提取主题、分析主题演化关系,并生成可视化图谱。 ## ✨ 功能特性 - **多格式支持**:自动解析 PDF/DOCX/Markdown 文档 - **智能处理**: - 基于 BERTopic 的主题建模 - Word2Vec 词向量语义分析 - 主题强度演化追踪 - **可视化呈现**: - 桑基图展示主题流向 - 主题强度演化折线图 - 主题共现网络分析 - **自动化流程**:从数据清洗到可视化的一站式解决方案 ## 📦 安装指南 # 安装依赖 ```bash pip install -r requirements.txt ``` ## 🚀 快速开始 1. **准备数据**: - 将文档按年份命名(如`2001_xxx.pdf`)放入`./demo_files/data_year`目录 2. **配置环境变量**: ```bash cp .env.example .env ``` 根据你的需求修改参数值(所有参数说明均在 `.env.example` 中以注释形式给出) 3. **运行完整流程**: ```bash python full_demo.py ``` ## 📂 项目结构 ``` 项目根目录 ├── RPG ├── full_demo.py ├── demo_files ├── data_year/ # 存放原始文档(PDF/DOCX/MD) ├── stage_data/ # 自动生成的阶段数据 ├── saved_models/ # BERTopic模型存储 ├── similarity/ # 相似度矩阵 ├── topics_results/ # 主题词结果 └── self_model/ # Word2Vec模型存储 ``` ## 📊 示例输出 ![桑基图示例](./public/sankey_example.png) ![主题强度演化](./public/topic_grow.png) ## 🤝 贡献指南 欢迎通过 Issue 或 PR 参与贡献,请确保: 1. 遵循现有代码风格 2. 更新相关文档 3. 通过基础测试