# arxiv_vectordb **Repository Path**: zhangweiphy/arxiv_vectordb ## Basic Information - **Project Name**: arxiv_vectordb - **Description**: AI 科学家系统 这个开源项目使用康奈尔大学公开的 arxiv 数据集(266.6万多篇文章),将每篇文章的 title+abstract 拼接后,使用 BGE-M3 进行嵌入,制作了一个规模大约 30 GB 的向量数据库。 使用这个向量数据库,用户可以快速检索相关文献,并调用 deepseek 进一步进行文献与问题的相关性分析,智能文献阅读,未来工作识别等任务。 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 3 - **Created**: 2025-06-16 - **Last Updated**: 2025-06-16 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 项目使用文档 ## 功能 该系统是一个基于 arxiv 向量数据库的 AI 科学家助理工具,主要功能包括: - **向量数据库**:将 arxiv 文献元信息转换为向量,并存储在向量数据库中。 - **文献检索**:根据用户输入的问题生成检索问题,并从数据库中查询相关文献。 - **相关性评分**:计算文献与用户问题之间的相关性得分。并调用 Kimi api,寻找更多相关文献。 - **AI文献阅读**:调用 Kimi api,对文献进行阅读,并生成摘要。 - **文献摘要压缩**:对文献摘要进行压缩,提取关键信息。 - **未来研究方向提取**:从文献中识别出可以进一步探索的研究点。 ## 安装 1. **克隆项目**: ```bash git clone https://gitee.com/lgpang/arxiv_vectordb.git cd arxiv_vectordb ``` 2. **创建虚拟环境(可选)**: ```bash python -m venv ai_scientist_env source ai_scientist_env/bin/activate # 在Linux或MacOS上 ai_scientist_env\Scripts\activate # 在Windows上 ``` 3. **安装依赖**: ```bash pip install -r requirements.txt ``` ## 使用 1. **启动应用**: ```bash streamlit run streamlit.py ``` 2. **在浏览器中访问**: 打开浏览器并访问 `http://localhost:8501`。 3. **输入问题**: 在应用界面中输入您的科研问题,点击“提交”按钮,系统将生成相关文献并显示结果。 ## 依赖的数据文件 - `arxiv/arxiv-metadata-oai-snapshot.json`:包含arXiv文献的元数据,系统将从中提取信息,大约 4.5 GB。 - `docs/arxiv_articles.db`:传统的 SQLite 数据库,存储文献的相关信息, 大约 600 MB。 - `docs/chroma/`: 向量数据库,存储文献的向量信息, 大约 30 GB, 请确保有足够的磁盘空间。 - `bge-m3/`: 向量嵌入模型,用于将文献元信息转换为向量,大约 1.5 GB。 请确保这些数据文件和模型文件在项目的相应目录中。 这些文件可以从百度网盘下载。 链接: https://pan.baidu.com/s/1LufumbcuhX6XUbeIVdtrmQ?pwd=1121 提取码: 1121 --来自百度网盘超级会员v5的分享 ## 获取 DeepSeek 的 API KEY 1. 访问 [DeepSeek 官方网站](https://deepseek.ai)。 2. 注册一个账户并登录。 3. 在用户设置中找到 API 密钥,复制并保存。 将 API 密钥添加到项目根目录下的 `.env` 文件中,格式如下: ``` API_KEY=你的_api_key BASE_URL=你的_base_url ``` ## 部署 DeepSeek-r1 的 Ollama 本地 1. **安装 Ollama**: 请参考 [Ollama 官方文档](https://ollama.com/docs) 进行安装。 2. **下载 DeepSeek 模型**: 使用以下命令下载 DeepSeek-r1 模型: ```bash ollama pull deepseek-r1 ``` 3. **启动 Ollama 服务**: 启动 Ollama 服务以便本地访问: ```bash ollama serve deepseek-r1 ``` 4. **确保服务运行**: 确保 Ollama 服务在 `http://localhost:11434` 上运行,以便系统能够访问。 ## 结语 感谢您使用本科研助理工具!如有任何问题或建议,请随时联系开发团队 lgpang@qq.com 。