1 Star 0 Fork 0

Pasca/text_similarity_zh

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README

text_similarity

文本相似性分析

目录

  • data

    • 存放数据
  • cosion_similarity

    • 将文本转换成向量(采用one-hot),根据向量余弦求文本相似性,余弦值越大,相似性越高。
  • jaccard_similarity

    • 直接计算两个文本中相同词汇数目与总词汇数目的比值,获得文本相似性。
  • simhash_similarity

    • 根据simhash算法,求得两文本的海明距离作为其文本相似性,海明距离越大,相似性越低。
  • edit_distance_similarity

    • 根据编辑距离算法,求得两文本编辑作为其相似性,编辑距离越大,相似性越低。
  • euclid_similarity

    • 根据欧氏距离计算文本相似性。
  • manhattan_similarity

    • 根据曼哈顿距离计算文本相似性。
  • lda_similarity

    • 基于lda对文本进行向量转换,采用cosion进行相似度计算。
  • lsi_similarity

    • 基于lsi对文本进行向量转换,采用cosion进行相似度计算。
  • tfidf_similarity

    • 基于tfidf对文本进行向量转换,采用cosion进行相似度计算
  • md25_smilarity

    • 基于md25计算查询语句与文本之间的相似性

gensim模型训练

lda, lsi, tfidf模型训练

空文件

简介

取消

发行版

暂无发行版

贡献者

全部

近期动态

不能加载更多了
马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化
1
https://gitee.com/Samuelcoding/text_similarity_zh.git
git@gitee.com:Samuelcoding/text_similarity_zh.git
Samuelcoding
text_similarity_zh
text_similarity_zh
master

搜索帮助