# wasearch **Repository Path**: hjq300/wasearch ## Basic Information - **Project Name**: wasearch - **Description**: 一个基于语义的搜索引擎 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2022-01-09 - **Last Updated**: 2022-06-20 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # wasearch #### 介绍 一个基于语义的搜索引擎 #### 基本原理与思路 搜索方式:搜索内容以文本的方式输入引擎,引擎先做语义分析,得到关键检索向量。然后拿这个向量去特征库中进行匹配。 特征库的生成:通过对备选结果进行语义分析,得到关键检索向量,将这个向量作为特征向量放在特征库中保存。 匹配方式:搜索特征向量与特征库的匹配可以通过向量相关性、特征库专业性划分这两个方向来尝试 #### 安装教程 1. xxxx 2. xxxx 3. xxxx #### 使用说明 1. xxxx 2. xxxx 3. xxxx #### 参考文献 1. [分词 – Tokenization](https://easyai.tech/ai-definition/tokenization/) 2. [pkuseg多领域中文分词工具](https://github.com/lancopku/PKUSeg-python) 3. [互联网时代的社会语言学:基于SNS的文本数据挖掘](http://www.matrix67.com/blog/archives/5044) 4. [中文NLP.数据集搜索](https://www.cluebenchmarks.com/dataSet_search.html) 5. [Second International Chinese Word Segmentation Bakeoff Data](http://sighan.cs.uchicago.edu/bakeoff2005/) 6. [New-Word-Detection](https://github.com/yanghanxy/New-Word-Detection) 7. [有哪些比较好的中文分词方案?](https://www.zhihu.com/question/19578687) 8. https://docs.jina.ai/get-started/hello-world/