1 Star 0 Fork 0

亮亮/python-资源收集

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README

资源整合软件


目的

网络上的爬虫大多只支持单一功能,相同网站需要的不同信息不能随意搭配。不同网站的信息也不能自由组合在同一个爬虫文件内。故想开发一款支持模块儿化自由组合爬取数据的软件。锻炼技术,并为数据分析提供资料。

库的说明

所有网站按照类型分到不同的文件夹(作为每个小模块儿的开发),最终成品放在项目文件夹中,并配有使用文档。

每个阶段的构想

第一阶段:

  • 输入:程序内编写好。

  • 工作:构建每个网站的的网页爬取。

  • 输出:保存的html文件。

第二阶段:

  • 输入:(同一页面内)选择需要提取的信息。

  • 工作:将每个网站网页的内容,构建提取信息的模块儿。

  • 输出:

    • 图片资源:输出图片文件夹。
    • 文本资源:输出文本文件夹。
    • 视频资源:输出视频地址表格。

第三阶段:

  • 输入:不同网站,不同页面。任意组合提取信息。
  • 工作:跨网站整合信息。
  • 输出:同上。

第四阶段:

  • 搭建简单的GUI让不懂编程的人也能使用。
  • (可选)搭建网站。

当前进展

  • 阶段一
    • 文字网站
    • 视频网站
    • 图片网站
  • 阶段二
  • 阶段三
  • 阶段四

用到的技术

  1. python编程基础
  2. 静态网页爬取
  3. request 库的使用

感谢

说明

警告:本软件代码请合法使用,由此产生的任何法律问题与本人及开发者无关。

空文件

简介

运用爬虫技术,爬取不同类型网站的数据,为数据分析提供资料。 展开 收起
取消

发行版

暂无发行版

贡献者

全部

近期动态

不能加载更多了
马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化
1
https://gitee.com/bright_liang_liang/python_resource_collection.git
git@gitee.com:bright_liang_liang/python_resource_collection.git
bright_liang_liang
python_resource_collection
python-资源收集
master

搜索帮助