# wasearch

**Repository Path**: hjq300/wasearch

## Basic Information

- **Project Name**: wasearch
- **Description**: 一个基于语义的搜索引擎
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 1
- **Forks**: 0
- **Created**: 2022-01-09
- **Last Updated**: 2022-06-20

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# wasearch

#### 介绍
一个基于语义的搜索引擎

#### 基本原理与思路
搜索方式：搜索内容以文本的方式输入引擎，引擎先做语义分析，得到关键检索向量。然后拿这个向量去特征库中进行匹配。
特征库的生成：通过对备选结果进行语义分析，得到关键检索向量，将这个向量作为特征向量放在特征库中保存。
匹配方式：搜索特征向量与特征库的匹配可以通过向量相关性、特征库专业性划分这两个方向来尝试


#### 安装教程

1.  xxxx
2.  xxxx
3.  xxxx

#### 使用说明

1.  xxxx
2.  xxxx
3.  xxxx

#### 参考文献

1. [分词 – Tokenization](https://easyai.tech/ai-definition/tokenization/)
2. [pkuseg多领域中文分词工具](https://github.com/lancopku/PKUSeg-python)
3. [互联网时代的社会语言学：基于SNS的文本数据挖掘](http://www.matrix67.com/blog/archives/5044)
4. [中文NLP.数据集搜索](https://www.cluebenchmarks.com/dataSet_search.html)
5. [Second International Chinese Word Segmentation Bakeoff Data](http://sighan.cs.uchicago.edu/bakeoff2005/)
6. [New-Word-Detection](https://github.com/yanghanxy/New-Word-Detection)
7. [有哪些比较好的中文分词方案？](https://www.zhihu.com/question/19578687)
8. https://docs.jina.ai/get-started/hello-world/