# 爬虫项目 **Repository Path**: hanzhou521/pachongxiangmu ## Basic Information - **Project Name**: 爬虫项目 - **Description**: 针对于唯品会,网易云,蘑菇街,京东等网站做的爬虫,非商业用途!!! - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 4 - **Forks**: 0 - **Created**: 2019-06-26 - **Last Updated**: 2021-12-26 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README #### 爬取bobopic壁纸图 https://bobopic.com/category/chahua/page/ - 爬虫所有相册名 - 创建相关相册名文件 - 爬取该文件名下所有的图片,保存在本地 - 翻页 ----- ### 房天下 https://xm.zu.fang.com/house-a0352/ #### 目标:分析厦门的租房信息 - 按区域分 - 抓取内容 - 出租房标题 - 出租房价格 - 出租屋基本信息 - 房源信息 - 配套设施 - 房源图片链接 - 写入excel - 设置好excel数据表,利于筛选数据,得出结论厦门的租房平均价格 ------ ### 唯品会 https://category.vip.com/suggest.php?keyword=%E5%8F%A3%E7%BA%A2&ff=235|12|1|1 #### 目标:分析唯品会口红价格 - 按品牌分类 - 抓取内容 - 口红标题 - 口红宣传语 - 口红价格 - 口红图片 - 商品详情 - 写入excel - 设置好excel数据表,利于筛选数据,得出结论每一个品牌哪个口红最贵 ------ ### 应用宝 https://sj.qq.com/myapp/category.htm?orgame=1 #### 目标:分析哪一个应用软件评分最高 - 按软件分类 - 抓取内容 - 下载次数\分类下的每个主题软件 - 软件评分 - 软件版本号 - 更新时间 - 应用信息 - 用户评论 - 写入excel - 设置好excel数据表,利于筛选数据,找到评分最高 ------ ### 蘑菇街 https://www.mogu.com #### 目标:抓取蘑菇街主页目录下的所有主题市场商品 - 按主题市场分类 - 每一个市场推荐标题分类 - 商品图片 - 商品链接, - 商品价格, - 商品标题 - 写入excel - 设置好excel数据表,分析数据 ------ ### 华为商城 https://www.vmall.com/index.html #### 目标:华为商城下的商品信息 - 按主页的左边手机,笔记本&平板,智能穿戴……分类 - 每一个分类下的小分类 - 商品标题 - 商品价格 - 规格参数 - 主要参数 - 主体 - …… - 商品编码 - 写入excel - 设置好excel数据表,分析数据 ------ ### 网易云音乐 http://music.163.com/#/discover/playlist> #### 目标: 爬取网易云音乐的歌曲详细信息 - 爬取每个大分类(语种,风格,场景,情感)下的中间分类(华语,欧美,日语等..)下的每个歌单下的每一首歌曲 - 歌单的播放量 - 歌单的简介 - 歌曲的名称 - 歌手名字 - 所属专辑 - 歌曲的链接 ------ ### 苏宁图书 #### 目标: 爬取苏宁图书下所有书本的系信息 - 爬取每个大分类(文学艺术)下的中间分类(小说)下的每个小分类(中国当代小说)的书本信息,并且进行翻页请求 - 大分类名字 - 中间分类名字 - 小分类名字 - 小分类链接 - 图书标题 - 书店名字 - 书的链接 - 书的价格 - 翻页请求 - 将数据保存到mongodb数据库中 ------ ### 京东图书 ####目标: 爬取京东图书下面所有图书的详细信息 - 爬取所有大分类下的所有小分类下的图书信息 - 大分类的名字 - 小分类的名字 - 小分类的链接 - 书的名字 - 书店的名字 - 书的链接 - 书对应图片链接 - 书的价格 - 进行翻页请求 ------