# space-planning-spider **Repository Path**: ViVi141/space-planning-spider ## Basic Information - **Project Name**: space-planning-spider - **Description**: 本项目为"空间规划政策爬虫与合规性分析系统",集成了政策数据爬取、合规性分析、智能对比、数据导出等功能,适用于国土空间规划、城市更新等领域的政策信息收集与分析。 - **Primary Language**: Python - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-07-06 - **Last Updated**: 2025-08-05 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 空间规划政策爬虫与合规性分析系统 **版本:3.0.0** **发布日期:2025.7.13** **开发者:ViVi141** **联系邮箱:747384120@qq.com** --- ## 📋 项目简介 本项目是一个专为国土空间规划、城市更新等领域设计的桌面级政策数据采集与合规分析系统。集成了智能爬虫、数据管理、合规性分析、政策对比、批量导出等功能,支持多源数据采集和多格式导出,适合政策研究人员和从业者高效使用。 --- ## ✨ 核心功能 ### 🕷️ 智能爬虫系统 - **多源数据采集**:支持国家住建部、广东省人民政府、自然资源部等官方政策数据爬取。 - **反爬虫机制**:内置多种反爬虫策略,支持快速/正常/慢速三种模式。 - **实时进度反馈**:爬取过程中实时显示进度和数据获取情况。 - **关键词与时间过滤**:支持多关键词组合搜索和时间区间过滤。 - **层级分类支持**:广东省政策支持父级和子级分类结构,显示为“父级分类 > 子级分类”。 ### 📊 数据管理与分析 - **本地数据库持久化**:所有数据均存储于本地SQLite数据库,支持离线查询和多用户独立数据。 - **智能数据更新**:自动检测数据时效性,智能判断是否需要更新。 - **分页与批量操作**:支持大量数据的分页浏览、批量导出和批量分析。 ### 🔍 合规性分析与对比 - **政策合规性评估**:对政策文本进行合规性评分和风险识别。 - **关键词高亮**:自动识别和高亮显示关键政策条款。 - **多政策对比**:支持多个政策文件的相似度对比和差异分析。 ### 📤 数据导出 - **多格式导出**:支持Word(.docx)、Excel(.xlsx)、文本(.txt)、Markdown(.md)等格式。 - **单选/多选/全选导出**:可灵活选择导出政策。 - **导出统计**:导出时显示政策数量和导出结果。 ### 🖥️ 现代化图形界面 - **基于PyQt5**:现代化桌面UI,支持多窗口、实时反馈、操作简便。 - **预设与自定义模式**:支持日常监控、项目分析、历史补全、自定义等多种检索模式。 --- ## 🏗️ 技术架构 - **GUI**:PyQt5 - **网络爬虫**:requests + beautifulsoup4 - **文档处理**:python-docx、pandas、openpyxl - **文本分析**:fuzzywuzzy、python-Levenshtein - **数据库**:SQLite - **打包**:PyInstaller --- ## 🚀 运行模式与数据库持久化 ### 安装模式(推荐) - 数据库存储在 `%USERPROFILE%\Documents\空间规划政策爬虫系统\`,多用户独立,自动备份,数据长期持久化。 ### 便携模式 - 数据库存储在程序目录下的 data 文件夹,适合U盘/移动硬盘携带。 ### 数据安全 - 支持数据库自动备份、恢复、导入导出,数据不会因程序关闭或升级丢失。 --- ## ⚡ 安装与启动 1. **解压安装包**(或克隆源码) 2. **双击 `启动程序.bat` 或 `空间规划政策爬虫系统.exe`** 3. **首次运行自动创建数据目录** 4. **如需卸载,运行 `卸载程序.bat`** --- ## 🆕 2.2.0版本更新内容(2025.7.10) ### 1. 新增功能 - **导出报告目录功能**:为所有导出格式(Word、Excel、文本、Markdown)添加政策目录 - Word文档:在开头添加目录标题和序号列表,包含政策时间 - Excel文件:创建独立的"目录"工作表,包含序号、标题、发布日期、层级 - 文本文件:在开头添加目录部分,使用分隔线区分,包含政策时间 - Markdown文件:添加二级标题目录,支持锚点链接跳转,包含政策时间 ### 2. 问题修复 - **修复爬虫状态监控对话框语法错误** - 修复`StatusUpdateThread`类中访问不存在属性的错误 - 优化爬虫实例获取逻辑,确保监控功能正常工作 - 修复导出模块Excel功能中的类型检查问题 ### 3. 技术改进 - **导出功能增强**:统一的数据解析逻辑,支持多种数据格式 - **监控功能优化**:改进爬虫状态获取机制,优化多爬虫实例监控支持 - **用户体验提升**:快速导航、内容预览、专业格式、多格式支持 ### 4. 向后兼容性 - 完全向后兼容v2.1.4版本 - 保持现有导出功能不变 - 数据库结构无变化 --- ## 📦 依赖环境 详见 requirements.txt,核心依赖如下: - PyQt5 - requests - beautifulsoup4 - python-docx - pandas - openpyxl - fuzzywuzzy - python-Levenshtein - lxml --- ## 📚 相关文档 - [CHANGELOG.md](CHANGELOG.md):详细更新日志 - [版本管理说明.md](版本管理说明.md):版本管理与升级说明 - [安装说明.txt](空间规划政策爬虫系统_安装版/安装说明.txt):安装包自带说明 --- ## 💬 技术支持 - 开发者:ViVi141 - 邮箱:747384120@qq.com - Gitee项目主页:https://gitee.com/ViVi141/space-planning-spider --- 如有建议或问题,欢迎随时联系反馈!