加入 Gitee

与超过 1200万开发者一起发现、参与优秀开源项目，私有仓库也完全免费：）

该仓库未声明开源许可证文件（LICENSE），使用请关注具体项目描述及其代码上游依赖。

克隆/下载

爬虫初尝试 b81392f 5年前

pyecharts数据可视化

图片爬取网站

文字爬取网站

视频爬取网站

Loading...

README

资源整合软件

资源整合软件

目的

网络上的爬虫大多只支持单一功能，相同网站需要的不同信息不能随意搭配。不同网站的信息也不能自由组合在同一个爬虫文件内。故想开发一款支持模块儿化自由组合爬取数据的软件。锻炼技术，并为数据分析提供资料。

库的说明

所有网站按照类型分到不同的文件夹（作为每个小模块儿的开发），最终成品放在项目文件夹中，并配有使用文档。

每个阶段的构想

第一阶段：

输入：程序内编写好。
工作：构建每个网站的的网页爬取。
输出：保存的html文件。

第二阶段：

输入：（同一页面内）选择需要提取的信息。
工作：将每个网站网页的内容，构建提取信息的模块儿。
输出：
- 图片资源：输出图片文件夹。
- 文本资源：输出文本文件夹。
- 视频资源：输出视频地址表格。

第三阶段：

输入：不同网站，不同页面。任意组合提取信息。
工作：跨网站整合信息。
输出：同上。

第四阶段：

搭建简单的GUI让不懂编程的人也能使用。
（可选）搭建网站。

当前进展

用到的技术

python编程基础
静态网页爬取
request 库的使用

感谢

说明

警告：本软件代码请合法使用，由此产生的任何法律问题与本人及开发者无关。

运用爬虫技术，爬取不同类型网站的数据，为数据分析提供资料。

README

取消

暂无发行版

马建仓 AI 助手

尝试更多

代码解读

代码找茬

代码优化

1

https://gitee.com/bright_liang_liang/python_resource_collection.git

git@gitee.com:bright_liang_liang/python_resource_collection.git

bright_liang_liang

python_resource_collection

python-资源收集

master