张海涛 (mobilezht1)

AgileBPM 工作流低代码快速开发平台，基于 JDK17、Activiti7、Vue3、TS、Vite、ElementPlus 的全新版本，全新的技术栈，全新的体验，我们会持续更新 OA人事、资产管理等低代码功能，敬请期待。

Salvo 是一个极其简单易用却又功能强大的 Rust Web 后端框架

以下是一个使用Java实现RAG准备工作的完整方案，包括读取指定目录下的docx文件、提取内容、分割段落、向量化处理以及存储到MariaDB数据库的功能。 ### 实现说明这个方案实现了RAG（检索增强生成）系统的数据准备工作，主要包含以下几个核心步骤： 1. **文档读取**：使用Apache Tika库读取指定目录下的所有docx文件内容。Tika是一个强大的文档解析库，能够处理多种格式的文档。 2. **内容分割**：将提取的文档内容按自然段分割，使用Jsoup处理可能的HTML格式内容，或者按空行分割纯文本内容。 3. **向量化处理**：通过Ollama API将每个段落转换为向量表示。示例中使用了all-MiniLM-L6-v2模型，你可以根据需要替换为其他模型。 4. **数据存储**：将文档信息、段落内容及其向量存储到MariaDB数据库中，创建了两个表： - `documents`：存储文档的基本信息 - `paragraphs`：存储每个段落的内容、向量及其关联的文档ID ### 使用前的准备工作 1. 确保已安装并运行MariaDB数据库，并创建名为`rag_db`的数据库 2. 启动Ollama服务并下载所需的嵌入模型（如`ollama pull all-MiniLM-L6-v2`） 3. 根据实际环境修改代码中的数据库连接信息（URL、用户名、密码） 4. 确保Java开发环境（JDK 11+）和Maven已正确配置 ### 运行方式使用Maven打包后，通过命令行运行： ``` java -jar target/rag-preparer-1.0-SNAPSHOT-jar-with-dependencies.jar /path/to/docx/files ``` 这个实现可以根据实际需求进行扩展，例如添加更多文档格式支持、优化向量生成效率或增加错误重试机制等。

1 1 0

AI 数据分析，数字化时代核心竞争力 AI 时代下数据人才缺口更大数据分析可以应用在千行百业数据分析作为一种强大的工具，可以应用在几乎所有行业中，帮助企业做出基于数据的决策、优化业务流程、提高效率和增加收入。巨大的市场需求和人才需求数据分析，不只是一个岗位，更是一项职场硬核技能，对于研发人员来说，数据分析可以有效提升研发质量管理。

Akka Active demo

用hash链方式为数据库记录加校验