# arxiv_vectordb

**Repository Path**: zhangweiphy/arxiv_vectordb

## Basic Information

- **Project Name**: arxiv_vectordb
- **Description**: AI 科学家系统

这个开源项目使用康奈尔大学公开的 arxiv 数据集（266.6万多篇文章），将每篇文章的 title+abstract 拼接后，使用 BGE-M3 进行嵌入，制作了一个规模大约 30 GB 的向量数据库。

使用这个向量数据库，用户可以快速检索相关文献，并调用 deepseek 进一步进行文献与问题的相关性分析，智能文献阅读，未来工作识别等任务。
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 3
- **Created**: 2025-06-16
- **Last Updated**: 2025-06-16

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 项目使用文档

## 功能

该系统是一个基于 arxiv 向量数据库的 AI 科学家助理工具，主要功能包括：


- **向量数据库**：将 arxiv 文献元信息转换为向量，并存储在向量数据库中。
- **文献检索**：根据用户输入的问题生成检索问题，并从数据库中查询相关文献。
- **相关性评分**：计算文献与用户问题之间的相关性得分。并调用 Kimi api，寻找更多相关文献。
- **AI文献阅读**：调用 Kimi api，对文献进行阅读，并生成摘要。
- **文献摘要压缩**：对文献摘要进行压缩，提取关键信息。
- **未来研究方向提取**：从文献中识别出可以进一步探索的研究点。

## 安装

1. **克隆项目**：
   ```bash
   git clone https://gitee.com/lgpang/arxiv_vectordb.git
   cd arxiv_vectordb
   ```

2. **创建虚拟环境（可选）**：
   ```bash
   python -m venv ai_scientist_env
   source ai_scientist_env/bin/activate  # 在Linux或MacOS上
   ai_scientist_env\Scripts\activate  # 在Windows上
   ```

3. **安装依赖**：
   ```bash
   pip install -r requirements.txt
   ```

## 使用

1. **启动应用**：
   ```bash
   streamlit run streamlit.py
   ```

2. **在浏览器中访问**：
   打开浏览器并访问 `http://localhost:8501`。

3. **输入问题**：
   在应用界面中输入您的科研问题，点击“提交”按钮，系统将生成相关文献并显示结果。

## 依赖的数据文件

- `arxiv/arxiv-metadata-oai-snapshot.json`：包含arXiv文献的元数据，系统将从中提取信息，大约 4.5 GB。
- `docs/arxiv_articles.db`：传统的 SQLite 数据库，存储文献的相关信息， 大约 600 MB。
- `docs/chroma/`: 向量数据库，存储文献的向量信息， 大约 30 GB， 请确保有足够的磁盘空间。
- `bge-m3/`: 向量嵌入模型，用于将文献元信息转换为向量，大约 1.5 GB。

请确保这些数据文件和模型文件在项目的相应目录中。

这些文件可以从百度网盘下载。
链接: https://pan.baidu.com/s/1LufumbcuhX6XUbeIVdtrmQ?pwd=1121 提取码: 1121 
--来自百度网盘超级会员v5的分享

## 获取 DeepSeek 的 API KEY

1. 访问 [DeepSeek 官方网站](https://deepseek.ai)。
2. 注册一个账户并登录。
3. 在用户设置中找到 API 密钥，复制并保存。

将 API 密钥添加到项目根目录下的 `.env` 文件中，格式如下：
```
API_KEY=你的_api_key
BASE_URL=你的_base_url
```

## 部署 DeepSeek-r1 的 Ollama 本地

1. **安装 Ollama**：
   请参考 [Ollama 官方文档](https://ollama.com/docs) 进行安装。

2. **下载 DeepSeek 模型**：
   使用以下命令下载 DeepSeek-r1 模型：
   ```bash
   ollama pull deepseek-r1
   ```

3. **启动 Ollama 服务**：
   启动 Ollama 服务以便本地访问：
   ```bash
   ollama serve deepseek-r1
   ```

4. **确保服务运行**：
   确保 Ollama 服务在 `http://localhost:11434` 上运行，以便系统能够访问。

## 结语

感谢您使用本科研助理工具！如有任何问题或建议，请随时联系开发团队 lgpang@qq.com 。