1 Star 0 Fork 1

doocs / spider

Create your Gitee Account
Explore and code with more than 6 million developers,Free private repositories !:)
Sign up
Clone or Download
Cancel
Notice: Creating folder will generate an empty file .keep, because not support in Git
Loading...
README.md

Spider

本仓库计划用于记录爬虫相关实践。

爬虫难点及解决方案

网站采取反爬策略

  • 模拟浏览器行为。

网站模板定期改动

  • 不同配置文件配置不同网站的模板规则。
  • 数据库存储不同网站的模板规则。

网站 URL 抓取失败

  • HttpClient 默认处理方式。
  • Storm 实时解析失败日志,将失败 URL 重新加入爬取仓库,一般超过 3 次就放弃。

网站频繁抓取导致 IP 被封

  • 购买代理 IP 库,随机获取 IP 抓取数据。
  • 部署多个应用分别抓取,降低单节点访问频率。
  • 设置每个页面抓取时间间隔,降低被封概率。

Repository Comments ( 0 )

Sign in for post a comment

About

基于 Spring Boot 的爬虫实践 expand collapse
MIT
Cancel

Releases

No release

Contributors

All

Activities

Load More
can not load any more
1
https://gitee.com/Doocs/spider.git
git@gitee.com:Doocs/spider.git
Doocs
spider
spider
master

Search