# 智能体文案生成 **Repository Path**: makila/python_AgentCopyGeneration ## Basic Information - **Project Name**: 智能体文案生成 - **Description**: No description available - **Primary Language**: Python - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2026-01-09 - **Last Updated**: 2026-01-09 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # MLProject - 学术文献智能分析系统 ## 项目简介 `MLProject` 是一个基于大语言模型的学术文献智能分析系统,能够自动检索、筛选、分析学术论文及其图表内容,并生成专业的图文并茂的研究报告。系统特别适用于快速了解某一技术领域的研究进展和行业应用,为科研人员提供高效的文献分析工具。 ## 核心功能 - **学术文献检索**:通过 [literature_search.py](file:///home/makila/workspace/MLProject/modules/literature_search.py) 模块调用 arXiv API 获取相关论文,支持中文关键词输入与精准英文查询转换 - **图表智能分析**:通过 [chart_processing.py](file:///home/makila/workspace/MLProject/modules/chart_processing.py) 和 [pics_trace.py](file:///home/makila/workspace/MLProject/modules/pics_trace.py) 提取并分析PDF中的图表内容,利用Doubao视觉模型进行深度解读 - **内容过滤筛选**:通过 [filter.py](file:///home/makila/workspace/MLProject/modules/filter.py) 使用 TF-IDF 和语义相似度双重过滤机制筛选高质量文献 - **研究报告生成**:通过 [report_generation.py](file:///home/makila/workspace/MLProject/modules/report_generation.py) 生成专业、图文并茂的学术分析报告,支持Markdown格式输出 - **API服务集成**:通过 [main.py](file:///home/makila/workspace/MLProject/main.py) 提供FastAPI服务接口,方便系统集成与调用 - **大模型API集成**:集成 DeepSeek 和 Doubao 大模型API进行内容分析和生成 ## 技术亮点 - **智能查询生成**:自动将中文关键词转换为合规的arXiv查询语法,支持"基础"与"进阶"两种分析深度 - **图表精准提取**:利用Doubao视觉模型精准定位PDF中的图表区域,提取完整图表内容 - **双重过滤机制**:结合TF-IDF与语义相似度(BERT)双重过滤,提高文献筛选质量 - **图文报告生成**:将论文文字内容与图表分析整合,生成专业、图文并茂的学术报告 - **批量处理能力**:支持批量下载PDF、批量分析图表、批量生成报告 ## 环境要求 - Python 3.8+ - 依赖库: - `fastapi` - `uvicorn` - `openai` - `Pillow` - `pdf2image` - `sentence-transformers` - `arxiv` - `python-dotenv` - `requests` - `pydantic` ## 安装指南 ```bash # 1. 克隆项目 git clone https://gitee.com/makila/python_AgentCopyGeneration.git cd MLProject # 2. 创建虚拟环境 python -m venv venv source venv/bin/activate # Linux/MacOS # venv\Scripts\activate # Windows # 3. 安装依赖 pip install -r requirements.txt # 4. 下载必要的模型(sentence-transformers) # 项目已包含预下载模型,位于 ./models 目录 # 如需重新下载,可执行: # pip install sentence-transformers # 或手动下载模型至 ./models 目录 ``` ## 配置说明 1. 创建 `.env` 文件,配置以下API密钥: ```env DEEPSEEK_API_KEY=your_deepseek_api_key DEEPSEEK_BASE_URL=https://api.deepseek.com/v1 DOUBAO_API_KEY=your_doubao_api_key DOUBAO_BASE_URL=https://ark.cn-beijing.volces.com/api/v3 ``` 2. 修改 [config.py](file:///home/makila/workspace/MLProject/config.py) 中的路径配置(如需要): - [MAX_RESULTS](file:///home/makila/workspace/MLProject/config.py#L0-L0):检索论文的最大数量 - [TFIDF_THRESHOLD](file:///home/makila/workspace/MLProject/config.py#L1-L1):TF-IDF相似度阈值 - [SEMANTIC_THRESHOLD](file:///home/makila/workspace/MLProject/config.py#L2-L2):语义相似度阈值 - [AGREE_TO_FILTER](file:///home/makila/workspace/MLProject/config.py#L3-L3):是否启用内容过滤 - [PICS_BASE_PATH](file:///home/makila/workspace/MLProject/config.py#L4-L4):**图表存储路径(生成的markdown中图表渲染依靠此路径)** - [REPORTS_BASE_PATH](file:///home/makila/workspace/MLProject/config.py#L5-L5):报告存储路径 - [PDFS_BASE_PATH](file:///home/makila/workspace/MLProject/config.py#L6-L6):PDF存储路径 ## 快速开始 ### 启动API服务 ```bash python main.py ``` 服务将运行在 `http://0.0.0.0:8000`,提供以下API端点: - `POST /analyze`:分析科技观点,生成研究报告 ### API调用示例 ```bash curl -X 'POST' \ 'http://localhost:8000/analyze' \ -H 'Content-Type: application/json' \ -d '{ "tech_view": "脑机接口技术在医疗领域的应用前景", "core_keywords": ["脑机接口", "BCI", "医疗应用"], "analysis_depth": "进阶", "agree_to_download_pdf": true }' ``` ### 请求参数说明 | 参数 | 类型 | 必填 | 说明 | |------|------|------|------| | [tech_view](file:///home/makila/workspace/MLProject/main.py#L17-L17) | string | 是 | 科技观点描述 | | [core_keywords](file:///home/makila/workspace/MLProject/main.py#L18-L18) | list | 是 | 核心关键词列表 | | [analysis_depth](file:///home/makila/workspace/MLProject/main.py#L19-L19) | string | 是 | 分析深度:"基础"或"进阶" | | [agree_to_download_pdf](file:///home/makila/workspace/MLProject/main.py#L20-L20) | boolean | 是 | 是否同意下载PDF进行图表分析 | | [additional_requirements](file:///home/makila/workspace/MLProject/main.py#L21-L21) | string | 否 | 额外需求说明 | ### 响应示例 ```json { "success": true, "report_content": "# 脑机接口技术在医疗领域的应用前景...\n## 1. 问题概述...", "error_message": null } ``` ## 项目目录结构 ``` MLProject/ ├── PDFs/ # PDF文件存储目录(按批次组织) ├── pics/ # 提取的图表存储目录 ├── reports/ # 生成的报告存储 ├── models/ # 模型存储目录 ├── modules/ # 核心功能目录 │ ├── chart_processing.py # 图表处理 │ ├── deepseek_api.py # DeepSeek、Doubao API封装 │ ├── filter.py # 文献过滤 │ ├── literature_search.py# 文献检索 │ ├── pics_trace.py # 图表提取 │ ├── report_generation.py# 报告生成 │ └── tools.py # 工具函数 ├── .env # api密钥配置文件 ├── main.py # FastAPI服务入口 ├── config.py # 配置文件 ├── requirements.txt # 依赖列表 └── README.md # 项目说明 ``` ## 报告示例 系统生成的报告包含完整的学术分析,如示例中的"脑机接口技术在医疗领域的应用前景"报告(详见 `reports/` 目录),内容包括: - **问题概述**:清晰阐述研究领域的问题背景 - **相关论文综合分析**:对比分析多篇相关论文的核心观点 - **图表数据深度解读**:结合图片进行专业分析,图文并茂 - **学术价值与行业应用**:总结学术贡献与实际应用价值 - **总结与展望**:研究总结与未来发展方向 - **参考文献**:规范引用相关文献 报告采用Markdown格式,自动插入相关图表并进行专业分析,可直接用于学术交流或报告撰写。 ## 系统架构 1. **请求处理层**:通过 [main.py](file:///home/makila/workspace/MLProject/main.py) 接收用户请求,解析参数 2. **文献检索层**:通过 [literature_search.py](file:///home/makila/workspace/MLProject/modules/literature_search.py) 生成精准查询,获取相关论文 3. **内容过滤层**:通过 [filter.py](file:///home/makila/workspace/MLProject/modules/filter.py) 对检索结果进行双重过滤 4. **图表分析层**:通过 [pics_trace.py](file:///home/makila/workspace/MLProject/modules/pics_trace.py) 和 [chart_processing.py](file:///home/makila/workspace/MLProject/modules/chart_processing.py) 提取并分析图表 5. **报告生成层**:通过 [report_generation.py](file:///home/makila/workspace/MLProject/modules/report_generation.py) 生成专业报告 6. **数据存储层**:通过 [tools.py](file:///home/makila/workspace/MLProject/modules/tools.py) 提供文件和目录管理工具 ## 贡献指南 欢迎贡献!请遵循以下步骤: 1. Fork 本仓库 2. 创建新分支 (`git checkout -b feature/your-feature`) 3. 提交更改 (`git commit -am 'Add some feature'`) 4. 推送到分支 (`git push origin feature/your-feature`) 5. 创建新的 Pull Request ## 许可证 本项目采用 MIT 许可证 - 详见 [LICENSE](LICENSE) 文件。