# dgk_lost_conv **Repository Path**: charles3000/dgk_lost_conv ## Basic Information - **Project Name**: dgk_lost_conv - **Description**: dgk_lost_conv 中文对白语料 chinese conversation corpus - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2021-03-31 - **Last Updated**: 2021-08-30 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ``` ========dgk_lost_conv======== chinese conversation corpus 可以用作聊天机器人的训练语料 ``` ``` 结果: dgk_shooter_z.conv 110MB 已分词 dgk_shooter_min.conv 按字分词 lost.conv 1.7MB fanzxl.conv 2.3MB fk24.conv 4.5MB haosys.conv 1.3MB juemds.conv 793KB laoyj.conv 1.5MB prisonb.conv 543KB 内部方法: asstosrt -s utf-8 ass ----asstosrt---->srt srt ----cvgen.py---->.conv 特别的shooter73g: 进入shooterwp, 解压缩mirror.x到rawbase下面 执行sel.sh 在跟目录下 fixcodec修正编码 fixtranc繁简处理 genall .conv 格式: //M 表示话语,E 表示分割。 E M 话语 a M 话语 b M 话语 c M 话语 d E M 话语 a M 话语 b M 话语 c M 话语 d License: MIT ``` QQ-1 ![](data/qqun.png) QQ-2 ![](data/qq2.jpeg)