2 Star 1 Fork 0

枸杞子 / depth-crawler

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README
MIT

depth-crawler

depth-crawler介绍

1.在python中运用scrapy框架定向爬取至三级页面,保存html页面内容与链接为xlsx表格

2.将xlsx表格内容存至elasticsearch中

3.elasticsearch查询的时候运用ik分词

4.在python中运用flask框架写前端页面呈现搜索页面和搜索的信息内容

5.查询结果高亮显示

6.spin\spin\spiders\Texnet.py:爬虫部分的主程序

spin\spin\item.py:用于接收网络爬虫传过来的数据,以便做进一步处理,定义预先使用的字段

spin\spin\pipelines.py:存储(把数据存储起来)

spin\spin\settings.py:它定义项目的全局配置

spin\static\html:存放爬虫过程中保存下来的html(html太多,只保留了一部分)

spin\static\img:存放前端用到的图片

spin\writetoES.py:读取表格存入elasticsearch库中

spin\route.py:flask编写路由

spin\templates:前端代码

spin\Inference.py:代码封装

安装说明

首先安装python用于编辑代码,然后安装jdk环境用于后续安装elasticsearch,elasticsearch数据库对爬取下来的数据进行处理。npm 是随同 node.js 一起安装的包管理工具,用于node.js插件管理(包括安装、卸载、管理依赖等),elasticsearch-head是elasticsearch用于监控 Elasticsearch 状态的客户端插件,包括数据可视化、执行增删改查操作等,使用JavaScript开发的依赖于Node.js

1.python(3.8.10)(python安装教程)打开cmd输入python,有版本号说明安装成功

输入图片说明

2.jdk(1.8.0_241)(jdk安装教程)注意环境变量的配置,打开cmd输入java -version,有版本号说明安装成功

输入图片说明

3.elasticsearch(6.8.21)(elasticsearch安装) 找到elasticsearch.bat启动成功后,在浏览器中输入(localhost:9200)出现如图便安装成功

输入图片说明

​ 3.1.nodejs(v16.17.0)(nodejs安装)安装好之后可以在cmd命令行输入"node -v"," npm -v"来测试是否成功安装,有版本号说明安装成功

输入图片说明

​ 3.2.elasticsearch-head(6.8.21)与elasticsearch版本一致(head插件的安装和基本使用)通过elasticsearch-head-master打开命令行,输入(grunt server)

输入图片说明

4.扩展库部分 ——pip install 库名==版本号 (可以在cmd中输入pip list 查看所有的版本号)

​ 4.1.flask(2.1.2)——使用 Python用于编写web应用的框架

​ 在cmd中输入(pip install flask),指定版本号的话输入(pip install flask==2.1.2)

输入图片说明

​ 4.2.scrapy(2.6.1)——用于爬取网站数据、提取结构性数据

​ 4.3.elasticsearch(7.15.2)——用于搜索信息

​ 4.4.pandas(1.4.1)——用于处理表格数据

​ 4.5.openpyxl(3.0.9)——可用于读写excel表格

​ 4.6.XlsxWriter(3.0.3)——用于创建Excel XLSX文件

启动流程

elasticsearch:

1.在"elasticsearch"的文件夹下打开“bin文件夹然后双击"elasticsearch.bat"开始运行

输入图片说明

2.在"elasticsearch"的文件夹下打开“head"文件夹下的"elasticsearch-head-master"复制路径(D:\ES\elasticsearch-6.8.21\head\elasticsearch-head-master)打开cmd进入路径下输入命令(grunt server)

输入图片说明

效果浏览

elasticsearch:

1.打开浏览器输入(http://localhost:9200/)访问端口

输入图片说明

2.打开浏览器输入(http://localhost:9100/)可看到elasticsearch数据库中信息

输入图片说明

前端 :

1.运行(route.py)在浏览器中访问第一个路由(http://127.0.0.1:5000/search)可看到搜索页面 输入图片说明

2.在搜索框中输入搜索内容(如:纺织)可出现相关信息,在最后也有分页效果

输入图片说明 输入图片说明

3.点击标题和内容部分会返回原网址

输入图片说明

4.点击快照会进去html页面

输入图片说明

5.每条内容回根据点击次数提高排名,在浏览器中输入(http://127.0.0.1:5000/restore)排名恢复原样

输入图片说明

MIT License Copyright (c) 2022 枸杞子 Permission is hereby granted, free of charge, to any person obtaining a copy of this software and associated documentation files (the "Software"), to deal in the Software without restriction, including without limitation the rights to use, copy, modify, merge, publish, distribute, sublicense, and/or sell copies of the Software, and to permit persons to whom the Software is furnished to do so, subject to the following conditions: The above copyright notice and this permission notice shall be included in all copies or substantial portions of the Software. THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE.

简介

用于windows 1.scrapy爬虫定向爬取至三级页面 2.在elasticsearch中查询时用ik分词,查询结果高亮显示,排名跟随点击内容的次数变化 3.用flask写前端页面其中有分页,结果高亮显示 展开 收起
Python 等 2 种语言
MIT
取消

发行版

暂无发行版

贡献者

全部

近期动态

加载更多
不能加载更多了
Python
1
https://gitee.com/fruit-of-chinese-wolfberry/depth-crawler.git
git@gitee.com:fruit-of-chinese-wolfberry/depth-crawler.git
fruit-of-chinese-wolfberry
depth-crawler
depth-crawler
master

搜索帮助

14c37bed 8189591 565d56ea 8189591