# Data_Generate **Repository Path**: Ruepr123/data_generate ## Basic Information - **Project Name**: Data_Generate - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-10-26 - **Last Updated**: 2025-10-26 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README #Date_Generate 目前最新的数据生成方式有两个: 1. 生成的100个具体心理问题作为User的知识库,一些心理咨询资料作为Assistant的知识库,使用AnythingLLM构建知识库并完成RAG搜索。在此基础上,让User和Assistant进行互对话,并将对话结果作为生成数据。代码见AnythingLLM.py,生成数据见AnythingLLM.jsonl。 2. 模仿Stanford Alpaca的思路,结合示例数据进行数据扩充。使用**灵心(SoulChat)**的公开数据集,每次进行数据扩充时随机选择数据集的部分数据作为示例数据。prompt的构造也仿照Stanford Alpaca的思路,并在生成过程中不断优化。代码见GPTByAlpaca.py,生成数据见GPTByAlpaca.jsonl。