# Baidu Information retrieval **Repository Path**: sg-first/baidu-information-retrieval ## Basic Information - **Project Name**: Baidu Information retrieval - **Description**: 百度搜索技术创新挑战赛2022 - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2022-12-02 - **Last Updated**: 2023-01-05 ## Categories & Tags **Categories**: Uncategorized **Tags**: 自然语言处理 ## README Baidu Information retrieval ========== Config --------- * `pip install gensim==3.8.1` * 下载[gensim3 patch](https://gitee.com/sg-first/gensim3-patch)覆盖到gensim安装目录(`python-3.10.5.amd64\Lib\site-packages\gensim`) 结构速读 ---------- 每个数据中,有一个`query`和单个文档组成的`doc_text`。计算过程如下: * 对`doc_text`分词,得到包含句子结构的二维数组`sentenceTokenMat`(该步位于`doc`类) * 对`sentenceTokenMat`计算与query最相关的前k个句子(该步位于`inferGetSentence`) * 将这些句子连接,得到最终结果