AgileBPM 工作流 低代码 快速开发平台,基于 JDK17、Activiti7、Vue3、TS、Vite、ElementPlus 的 全新版本,全新的技术栈,全新的体验,我们会持续更新 OA人事、资产管理 等低代码功能,敬请期待。
以下是一个使用Java实现RAG准备工作的完整方案,包括读取指定目录下的docx文件、提取内容、分割段落、向量化处理以及存储到MariaDB数据库的功能。 ### 实现说明 这个方案实现了RAG(检索增强生成)系统的数据准备工作,主要包含以下几个核心步骤: 1. **文档读取**:使用Apache Tika库读取指定目录下的所有docx文件内容。Tika是一个强大的文档解析库,能够处理多种格式的文档。 2. **内容分割**:将提取的文档内容按自然段分割,使用Jsoup处理可能的HTML格式内容,或者按空行分割纯文本内容。 3. **向量化处理**:通过Ollama API将每个段落转换为向量表示。示例中使用了all-MiniLM-L6-v2模型,你可以根据需要替换为其他模型。 4. **数据存储**:将文档信息、段落内容及其向量存储到MariaDB数据库中,创建了两个表: - `documents`:存储文档的基本信息 - `paragraphs`:存储每个段落的内容、向量及其关联的文档ID ### 使用前的准备工作 1. 确保已安装并运行MariaDB数据库,并创建名为`rag_db`的数据库 2. 启动Ollama服务并下载所需的嵌入模型(如`ollama pull all-MiniLM-L6-v2`) 3. 根据实际环境修改代码中的数据库连接信息(URL、用户名、密码) 4. 确保Java开发环境(JDK 11+)和Maven已正确配置 ### 运行方式 使用Maven打包后,通过命令行运行: ``` java -jar target/rag-preparer-1.0-SNAPSHOT-jar-with-dependencies.jar /path/to/docx/files ``` 这个实现可以根据实际需求进行扩展,例如添加更多文档格式支持、优化向量生成效率或增加错误重试机制等。
AI 数据分析,数字化时代核心竞争力 AI 时代下数据人才缺口更大 数据分析可以应用在千行百业 数据分析作为一种强大的工具,可以应用在几乎所有行业中,帮助企业做出基于数据的决策、优化业务流程、提高效率和增加收入。 巨大的市场需求和人才需求 数据分析,不只是一个岗位,更是一项职场硬核技能,对于研发人员来说,数据分析可以有效提升研发质量管理。
Akka Active demo
用hash链方式为数据库记录加校验
最近一年贡献:469 次
最长连续贡献:12 日
最近连续贡献:1 日
贡献度的统计数据包括代码提交、创建任务 / Pull Request、合并 Pull Request,其中代码提交的次数需本地配置的 git 邮箱是 Gitee 帐号已确认绑定的才会被统计。