98 Star 183 Fork 94

lewsn2008 / LBTSE

Create your Gitee Account
Explore and code with more than 8 million developers,Free private repositories !:)
Sign up
This repository doesn't specify license. Please pay attention to the specific project description and its upstream code dependency when using it.
Clone or Download
contribute
Sync branch
Cancel
Notice: Creating folder will generate an empty file .keep, because not support in Git
Loading...
README.md

#LBTSE

本项目为北大搜索引擎TSE的完整源代码(包括索引和爬虫两个独立项目的源代码),TSE 为《搜索引擎——原理、技术与系统》一书介绍的实现原型,有兴趣的朋友可以参考该书学 习TSE。

《搜索引擎——原理、技术与系统》提供的源码下载地址http://sewm.pku.edu.cn/book/
经常不能访问,这里我将以前下载学习的加入详细注释的源代码开放出来,不仅有注释的 源代码,还有一份详细的学习笔记—— CSDN博客专栏地址为: http://blog.csdn.net/column/details/inside-tse.html ,希望对入门的朋友有一些帮 助。

目录说明:

tse081227 —— TSE的网页搜集子系统(爬虫)。

index —— TSE的预处理和查询服务子系统,该目录非常大,其实不是因为源代码大,而是 因为其中的 index/Data/Tianwang.raw.2559638448 非常大,该文件为爬虫爬 取的原始网页数据。

另外,原始的 index/Data/Tianwang.raw.2559638448 文件有三百多兆,上传时提示超出 了 git.oschina.net/ 文件的最大限制(100M),所以将文件内容删掉了很多,为了得到 较小的文件,这个对于整个系统的运行没有任何影响,因为它只是爬取的原始网页数据, 可以多可以少。

About

北大搜索引擎TSE完整源代码(索引+爬虫),加入我个人阅读代码的详细注释。 expand collapse
C++
Cancel

Releases

No release

LBTSE

Contributors

All

Activities

Load More
can not load any more
C++
1
https://gitee.com/lewsn2008/LBTSE.git
git@gitee.com:lewsn2008/LBTSE.git
lewsn2008
LBTSE
LBTSE
master

Search

E71a60c3 8189591 Df7b7c6b 8189591