sciencenet项目的补充,主要是因为以学科分级接口去爬取博主信息时,所得博主人数并不完整。主要问题在于,博主提供的研究领域信息不完整或者不正确,所以科学网无法进行归档整理。 所以这个补充程序,从博主姓名字母排序列表接口接入,从而对之前程序进行补充,主要针对博主信息(工作单位、职称、研究领域、博文数量、活跃度、博客访问量)的杂乱进行了处理和入库,除被封博的博主外,允许部分信息缺失,并对缺失值设置默认值。
抓取科学网博主信息爬虫,提取信息包括一级学科、二级学科、三级学科、博主姓名、博客uid、博主所在单位、博主头衔、博客访问量、博文总数、博客活跃度等。 使用scrapy框架开发,mongodb做存储。
用淘宝网的搜索接口搜索并爬取特定商品(以“洗衣机”为例)的标题,价格,评论数,销售量,图片等信息; 用splash作为js渲染服务器,MongoDB做存储,简单实现数据清洗和处理;
selenium + PIL破解bilibili的滑动极验, 详细注释; 注意点是, 点击获取有缺口的验证码图片后, 会在图片上方有一行提示信息, 要等待5至6秒, 等提示信息消失后再行截图, 否则, 提示信息会干扰像素比较;
国内最流行的科研论坛之一------小木虫论坛自动登录爬虫, 扩展之后可以自动领金币, 继续扩展可以爬取用户信息; 但是小木虫对异常请求有一点反爬措施, 要实现爬取, 需要代理IP和 组建cookie池; 温馨提示:本人混迹小木虫多年, 也干过一段时间版主, 而且小木虫属于个人维护的免费论坛, 靠一些广告费维持, 估计也扛不住大家轮番上阵, 所以要本着玩玩就好的心态, 见好就收, 遵守爬虫道德规范......
赶集网租房信息,用了免费代理IP池,MongoDB做存储; 考虑了免费代理因为不稳定而丢失数据的情况(返回带'partial'标记的response, 或者返回信息不完整, 导致无法翻页), 事实上, 不用代理, 只要爬取速度慢一些, 也能成功抓到数据.