1.在python中运用scrapy框架定向爬取至三级页面,保存html页面内容与链接为xlsx表格
2.将xlsx表格内容存至elasticsearch中
3.elasticsearch查询的时候运用ik分词
4.在python中运用flask框架写前端页面呈现搜索页面和搜索的信息内容
5.查询结果高亮显示
6.spin\spin\spiders\Texnet.py:爬虫部分的主程序
spin\spin\item.py:用于接收网络爬虫传过来的数据,以便做进一步处理,定义预先使用的字段
spin\spin\pipelines.py:存储(把数据存储起来)
spin\spin\settings.py:它定义项目的全局配置
spin\static\html:存放爬虫过程中保存下来的html(html太多,只保留了一部分)
spin\static\img:存放前端用到的图片
spin\writetoES.py:读取表格存入elasticsearch库中
spin\route.py:flask编写路由
spin\templates:前端代码
spin\Inference.py:代码封装
首先安装python用于编辑代码,然后安装jdk环境用于后续安装elasticsearch,elasticsearch数据库对爬取下来的数据进行处理。npm 是随同 node.js 一起安装的包管理工具,用于node.js插件管理(包括安装、卸载、管理依赖等),elasticsearch-head是elasticsearch用于监控 Elasticsearch 状态的客户端插件,包括数据可视化、执行增删改查操作等,使用JavaScript开发的依赖于Node.js
1.python(3.8.10)(python安装教程)打开cmd输入python,有版本号说明安装成功
2.jdk(1.8.0_241)(jdk安装教程)注意环境变量的配置,打开cmd输入java -version,有版本号说明安装成功
3.elasticsearch(6.8.21)(elasticsearch安装) 找到elasticsearch.bat启动成功后,在浏览器中输入(localhost:9200)出现如图便安装成功
3.1.nodejs(v16.17.0)(nodejs安装)安装好之后可以在cmd命令行输入"node -v"," npm -v"来测试是否成功安装,有版本号说明安装成功
3.2.elasticsearch-head(6.8.21)与elasticsearch版本一致(head插件的安装和基本使用)通过elasticsearch-head-master打开命令行,输入(grunt server)
4.扩展库部分 ——pip install 库名==版本号 (可以在cmd中输入pip list 查看所有的版本号)
4.1.flask(2.1.2)——使用 Python用于编写web应用的框架
在cmd中输入(pip install flask),指定版本号的话输入(pip install flask==2.1.2)
4.2.scrapy(2.6.1)——用于爬取网站数据、提取结构性数据
4.3.elasticsearch(7.15.2)——用于搜索信息
4.4.pandas(1.4.1)——用于处理表格数据
4.5.openpyxl(3.0.9)——可用于读写excel表格
4.6.XlsxWriter(3.0.3)——用于创建Excel XLSX文件
1.在"elasticsearch"的文件夹下打开“bin文件夹然后双击"elasticsearch.bat"开始运行
2.在"elasticsearch"的文件夹下打开“head"文件夹下的"elasticsearch-head-master"复制路径(D:\ES\elasticsearch-6.8.21\head\elasticsearch-head-master)打开cmd进入路径下输入命令(grunt server)
1.打开浏览器输入(http://localhost:9200/)访问端口
2.打开浏览器输入(http://localhost:9100/)可看到elasticsearch数据库中信息
1.运行(route.py)在浏览器中访问第一个路由(http://127.0.0.1:5000/search)可看到搜索页面
2.在搜索框中输入搜索内容(如:纺织)可出现相关信息,在最后也有分页效果
3.点击标题和内容部分会返回原网址
4.点击快照会进去html页面
5.每条内容回根据点击次数提高排名,在浏览器中输入(http://127.0.0.1:5000/restore)排名恢复原样
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。