Fetch the repository succeeded.
本项目实现了具有位置感知功能的旅游景点垂直搜索引擎。以开源搜索框架Solr和Lucene为基础,以另外一些开源项目例如Heritrix、webmagic、Zookeeper、Ionic、gradle、jetty等为工具,并在相关文档和技术博客的帮助下,完成了整个垂直搜索引擎系统的开发。用到的技术主要有网络爬虫、HTML解析、中文分词、文档索引、空间搜索、RESTful Web Service、Ajax、Hybrid App、容器技术Docker、SolrCloud、集群等。
编写的系列开发文章《用Solr构建垂直搜索引擎》发布在Gitbook,当然也希望大家去我的博客转转【总述】用Solr构建垂直搜索引擎
本repository中的代码主要是爬虫模块、网页抽取模块、搜索服务、客户端的代码。
.
├── ExtractHtml
├── README.md
├── SearchApp
├── SearchService
├── SightSpider
└── SolrHome
ExtractHtml
前期单独使用jsoup解析html文件的模块README.md
readme文档(本文档)SearchApp
客户端程序的源码模块SearchService
搜索服务API模块SightSpider
扩展webmagic进行网页爬取的模块,并包含利用jsoup和XPath进行html解析的模块SolrHome
Solr的Home目录,忽略了索引文件和日志文件,主要是Solr的配置文件。此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。