# AutoIQRetrieveProject **Repository Path**: holosfy/auto-iqretrieve-project ## Basic Information - **Project Name**: AutoIQRetrieveProject - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2023-10-26 - **Last Updated**: 2023-11-17 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 我就要T恤 https://tianchi.aliyun.com/competition/entrance/532154/information ## 提交历史 | 提交说明 | 提交结果 | 备注 | |:----------------------------:|:-------------------------------------:|:-------------------------:| | qwen14b | 日期:2023-10-25 08:57:59 score:33.2600 | | | qwen7b + qa in content learn | 日期:2023-10-25 11:25:33 score:30.0600 | | | qwen14b icl+few_short | 日期:2023-10-26 11:32:42 score:34.4800 | 被few_short影响较大 | | qwen14b icl | 日期:2023-10-26 17:08:08 score:57.5500 | | | chatglm3-6b | 日期:2023-10-27 20:36:14 score:53.7500 | | | chatglm3-6b-32k | 日期:2023-10-27 22:10:13 score:74.0800 | icl 取top5 content长度1.1w左右 | | chatglm3-6b-32k | 日期:2023-10-27 23:06:09 score:71.6300 | icl 取top10 content长度2w+左右 | | chatglm3-6b-32k | 日期:2023-10-29 21:00:00 score:74.3100 | 短文本 x1 x5 x10倍拼接 | | chatglm3-6b-32k | 日期:2023-11-01 13:37:00 score:75.4600 | 向量召回 + 相似度召回 | | chatglm3-6b-32k | 日期:2023-11-03 09:22:47 score:77.3700 | 向量召回top1 + top5 + 相似度召回 | ## 优化 - 20231026 pdfplumber解析 /data_process/custom_plumber.py 去掉页眉页脚,拆分两列内容,句子合并。 - 20231026 data_analysis数据分析 in_context_learning/data_analysis.py 数据分析,根据query统计答案出现在document中的位置分布,抽取query相关文档 ## 总结 - in content learning 能大幅的提升效果 ## 实验 - 用问题的答案检索向量库也行会提升效果