1 Star 4 Fork 0

周航 / 爬虫项目

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README

爬取bobopic壁纸图 https://bobopic.com/category/chahua/page/

  • 爬虫所有相册名
  • 创建相关相册名文件
  • 爬取该文件名下所有的图片,保存在本地
  • 翻页

房天下 https://xm.zu.fang.com/house-a0352/

目标:分析厦门的租房信息

  • 按区域分
  • 抓取内容
    • 出租房标题
    • 出租房价格
    • 出租屋基本信息
    • 房源信息
    • 配套设施
    • 房源图片链接
  • 写入excel
  • 设置好excel数据表,利于筛选数据,得出结论厦门的租房平均价格

唯品会 https://category.vip.com/suggest.php?keyword=%E5%8F%A3%E7%BA%A2&ff=235|12|1|1

目标:分析唯品会口红价格

  • 按品牌分类
  • 抓取内容
    • 口红标题
    • 口红宣传语
    • 口红价格
    • 口红图片
    • 商品详情
  • 写入excel
  • 设置好excel数据表,利于筛选数据,得出结论每一个品牌哪个口红最贵

应用宝 https://sj.qq.com/myapp/category.htm?orgame=1

目标:分析哪一个应用软件评分最高

  • 按软件分类
  • 抓取内容
    • 下载次数\分类下的每个主题软件
    • 软件评分
    • 软件版本号
    • 更新时间
    • 应用信息
    • 用户评论
  • 写入excel
  • 设置好excel数据表,利于筛选数据,找到评分最高

蘑菇街 https://www.mogu.com

目标:抓取蘑菇街主页目录下的所有主题市场商品

  • 按主题市场分类
  • 每一个市场推荐标题分类
    • 商品图片
    • 商品链接,
    • 商品价格,
    • 商品标题
  • 写入excel
  • 设置好excel数据表,分析数据

华为商城 https://www.vmall.com/index.html

目标:华为商城下的商品信息

  • 按主页的左边手机,笔记本&平板,智能穿戴……分类
  • 每一个分类下的小分类
    • 商品标题
    • 商品价格
  • 规格参数
    • 主要参数
    • 主体
    • ……
    • 商品编码
  • 写入excel
  • 设置好excel数据表,分析数据

网易云音乐 http://music.163.com/#/discover/playlist>

目标: 爬取网易云音乐的歌曲详细信息

  • 爬取每个大分类(语种,风格,场景,情感)下的中间分类(华语,欧美,日语等..)下的每个歌单下的每一首歌曲
  • 歌单的播放量
  • 歌单的简介
  • 歌曲的名称
  • 歌手名字
  • 所属专辑
  • 歌曲的链接

苏宁图书 https://book.suning.com/

目标: 爬取苏宁图书下所有书本的系信息

  • 爬取每个大分类(文学艺术)下的中间分类(小说)下的每个小分类(中国当代小说)的书本信息,并且进行翻页请求
  • 大分类名字
  • 中间分类名字
  • 小分类名字
  • 小分类链接
  • 图书标题
  • 书店名字
  • 书的链接
  • 书的价格
  • 翻页请求
  • 将数据保存到mongodb数据库中

京东图书 https://book.jd.com/booksort.html

####目标: 爬取京东图书下面所有图书的详细信息

  • 爬取所有大分类下的所有小分类下的图书信息
  • 大分类的名字
  • 小分类的名字
  • 小分类的链接
  • 书的名字
  • 书店的名字
  • 书的链接
  • 书对应图片链接
  • 书的价格
  • 进行翻页请求

空文件

简介

针对于唯品会,网易云,蘑菇街,京东等网站做的爬虫,非商业用途!!! 展开 收起
Python
取消

发行版

暂无发行版

贡献者

全部

近期动态

加载更多
不能加载更多了
Python
1
https://gitee.com/hanzhou521/pachongxiangmu.git
git@gitee.com:hanzhou521/pachongxiangmu.git
hanzhou521
pachongxiangmu
爬虫项目
master

搜索帮助