# bb-anti-reptile
**Repository Path**: RemoteControl/bb-anti-reptile
## Basic Information
- **Project Name**: bb-anti-reptile
- **Description**: 积木防爬组件,目标是自动化收集用户访问率以达到控制异常访问。
- **Primary Language**: Java
- **License**: Apache-2.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No
## Statistics
- **Stars**: 4
- **Forks**: 1
- **Created**: 2024-03-21
- **Last Updated**: 2025-10-07
## Categories & Tags
**Categories**: Uncategorized
**Tags**: None
## README
# bb-anti-reptile
### 介绍
积木防爬组件,一款目标开箱即可用反扒组件,以达到控制异常访问。
包括基于ip、和ua的简单控制,以及添加了ip-plus-rule和user-rule两种规则,基于用户的访问日志(Plumelog-me等)以分析ip和用户的访问规则自动添加访问规则,以限流/验证码/黑名单/告警通知限制访问。
### 系统要求
- 基于 spring-boot 开发(spring-boot2.x)
- 需要 redisson
### 模块说明
#### 1. bb-anti-reptile-core 反扒核心模块,实现了4中规则,以及自带默认方案(最简单方案):比如限流,响应方案、存储方案
- 四种方案:
+ 基于ua,通过User-Agent字符串 控制用户授权访问,常用几种规则:allowedLinux、allowedMobile、allowedPc、allowedIot、allowedProxy
+ 基于ip,设置白名单/黑名单ip,以及设置允许ip通过的流量,来控制ip授权访问(难点在于怎么设置ip的限流数值)
+ 基于ip-plus(仅限非登录), 同样可以设置白名单/黑名单ip,流量限制 基于ip/用户 的访问规则以精准区分流量(好处2个,1、无需设置流量值 2、各个ip将更精准),目前数据分析有2种块(集成Plumelog-me(已完成)、自行分析后自行写入db《bb-anti-reptile-data-db》)
+ 基于user(仅限登录),同样限流,限制用户的访问规则以精准区分流量,目前数据分析有2块(集成Plumelog-me(已完成)、自行分析后写入db《bb-anti-reptile-data-db》)
+ 基于平台限流/告警,基于url限流/告警(和以上差异为,一旦限流本规则仅限控制此接口,其他接口不受影响,其他规则则全部限制接口都会受影响)
- 4种限流结果:
+ lock-type=1,只是限流
+ lock-type=2,限流且加入可解除的黑名单(黑名单时间建议设置比较短)
+ lock-type=3,限流且加入不可解除的黑名单(黑名单时间建议设置比较长)
+ lock-type=9,告警
#### 2. bb-anti-reptile-rateLimiter-redisson 同步限流方案,可以自行实现你需要的限流插件(限流)
#### 3. bb-anti-reptile-data-esstat Plumelog-me 日志分析器插件(日志分析-未优化,含bb-anti-reptile-data-db)
#### 4. bb-anti-reptile-es es配置插件
#### 5. bb-anti-reptile-data-db db存储(存储方案-mysql)
#### 6. bb-anti-reptile-springboot-starter 应用启动器-目前只能在非网关启动,启动 SpringMVC拦截器 对请求进行过滤
#### 7. bb-anti-reptile-captcha 验证码插件,支持验证码限流场景下(仅限验证码限流),用户通过验证码解锁(ip限流解ip,user限流解user)
#### 8. bb-anti-reptile-mailalarm 邮件告警,lock-type=9模式下配置邮件属性,以通知管理员,否则只告警无通知,可以根据此定义自己的通知渠道
### 使用说明
#### 1. 添加maven依赖(目前未添加到公用maven库,请自行打包到私服或者 mvn install 至本地)
引入依赖条件:
- mvn install 至本地
- deploy 至私服
- 使用作者的gitee 版本库,pom添加如下
```yaml
jin-gitee-maven
https://gitee.com/RemoteControl/maven-repository/raw/master
```
```xml
com.bblocks.common
bb-anti-reptile-springboot-starter
1.0.1-SNAPSHOT
com.bblocks.common
bb-anti-reptile-rateLimiter-redisson
1.0.1-SNAPSHOT
com.bblocks.common
bb-anti-reptile-data-db
1.0.1-SNAPSHOT
```
#### 2. 配置redisson
#### 3. 配置以启动(全部参数如下)
```properties
#限流/反爬配置
anti:
reptile:
#全局开关
enabled: true
#启用全局拦截
global-filter-mode: true
#非全局拦截下,反扒接口(支持正则表达式匹配(如:^/xx/.*$)
include-urls: /abc/1,/abc/2
ua-rule:
enabled: false
ip-rule:
#ip限流(可以用,但不好用,不知道配置数字多少,且ip接口差异太大)
enabled: false
#时间窗口(ms)
expiration-time: 5000
#时间窗口限制量(默认无-不限制)
request-max-size: 10
#锁定类型:1=限流 2=验证码(默认 锁定时间结束或者验证码解锁) 3=拉黑(锁定时间结束或者管理平台手工解锁)
lock-type: 1
#命中规则后,锁定期限(s)-默认1天,验证码建议30秒
lock-expire: 30
#限制后响应
lock-response: '{"code":0,"msg":"限流!","serviceTips":"限流","sucFlag":false}'
ip-plus-rule:
enabled: true
# hea的token-key(默认Authorization)
token-key: Authorization
#时间窗口(ms)
expiration-time: 5000
#时间窗口限制量(默认值-仅在url无参数的时候生效-不配置不生效)
request-max-size: 10
#锁定类型:1=限流 2=验证码(默认 锁定时间结束或者验证码解锁) 3=拉黑(锁定时间结束或者管理平台手工解锁)
lock-type: 2
#命中规则后,锁定期限(s)-默认1天,验证码建议10分钟
lock-expire: 600
#最大值系数(url的max*此系数=最终最大值)
multiplier: 100.0
#限制后响应
lock-response: '{ "code": 0,"msg": "限流验证码!","serviceTips": "限流验证码!","sucFlag": false }'
user-rule:
enabled: true
# hea的token-key(默认Authorization)
token-key: Authorization
#时间窗口(ms)
expiration-time: 5000
#时间窗口限制量(默认值-仅在url无参数的时候生效-不配置不生效)
request-max-size: 10
#锁定类型:1=限流 2=验证码(默认 锁定时间结束或者验证码解锁) 3=拉黑(锁定时间结束或者管理平台手工解锁)
lock-type: 3
#最大值系数(url的max*此系数=最终最大值)
multiplier: 25.0
#限制后响应
lock-response: '{ "code": 0,"msg": "限流黑名单咯!","serviceTips": "限流黑名单咯!","sucFlag": false }'
#bb-anti-reptile-data-esstat 组件需要提取分析日志来源
es:
host: 127.0.0.1
port: 9200
username:
password:
#bb-anti-reptile-data-db 组件需要查询数据(sys_access_sum、sys_access_ip_sum)
db:
url: jdbc:mysql://127.0.0.1:33060/bb_admin?characterEncoding=utf8&zeroDateTimeBehavior=convertToNull&useSSL=false&useJDBCCompliantTimezoneShift=true&useLegacyDatetimeCode=false&serverTimezone=GMT%2B8&allowMultiQueries=true&allowPublicKeyRetrieval=true
driver-class-name: com.mysql.cj.jdbc.Driver
username: root
password: 123456
#bb-anti-reptile-data-db 同步数据用,db-》redis
sync:
#启动同步一次限流规则(建议不要启动-测试阶段可以)
sync-on-start: false
#每天同步时间(2点)
sync-time: 2
#统一的响应策略参数(ip-plus-rule/user-rule 特殊的响应策略,时间单位:s,1=限流,2=验证码限流,3=黑名单限流)
rule-result-params:
- lock-type: 1
lock-expire: 30
lock-response: '{"code":0,"msg":"限流!","serviceTips":"限流","sucFlag":false}'
- lock-type: 2
lock-expire: 600
lock-response: '{ "code": 0,"msg": "限流验证码!","serviceTips": "限流验证码!","sucFlag": false }'
- lock-type: 3
lock-expire: 86400
lock-response: '{ "code": 0,"msg": "限流黑名单咯!","serviceTips": "限流黑名单咯!","sucFlag": false }'
```
#### 4. bb-anti-reptile-data-db 需要连接db,请初始化 doc/bb-anti-reptile-plugin.sql 脚本至配置数据库
- db配置中的 rate_ip_limit_type、rate_user_limit_type、rate_plate_limit_type 比此规则中的lock-type优先级高
#### 5. 自行分析你的访问日志,提取:用户最大访问qps、平均qps,ip最大qps(非登录qps/ip/用户),ip平均qps(非登录qps/ip/用户),以及ip的用户数量,写入db以供 user-rule和ip-plus-rule使用
#### 6. 或者直接使用启用组件:bb-anti-reptile-data-esstat,集成Plumelog-me日志分析并写入db(每天启动时:sync.sync-time-1 启动),配置以及使用条件:
1. 配置:
```xml
com.bblocks.common
bb-anti-reptile-data-esstat
1.0.1-SNAPSHOT
```
```properties
#限流/反爬配置 日志分析
anti:
reptile:
esstat:
#es分组,分隔字符串
spitter-str: "&&&"
##分析数据超过7天,才最后产生限流规则(7天内只分析数据),默认:0(不启动)
stat-limit-day: 2
```
2. 使用条件(具体查询dsl见:bb-anti-reptile-plugin\bb-anti-reptile-data-esstat\src\main\resources\static\),目前为了查询接口上的用户信息查询都是走的应用服务器日志,未查询网关日志
- 含字段:USER_ID(以分析用户行为)
- 含字段:FROM(以区分服务内部调用-微服务用,目前分析的数据是来自网关的调用)
- 含字段:IP(以分析ip行为)
- 含字段:COST(以区分日志请求还是响应-目前都是分析请求)
- 含字段:URL(以分析请求qps)
- 具体dsl:
+ ip_day_users.json 分页统计ip的用户数量
+ ip_nologin_access.json 分页统计url-ip(未登录)请求
+ ip_nologin_access_qps.json 统计url-ip(未登录)请求,最大qps-单ip(以计算url ip平均qps)
+ user_access.json 分页统计url-userid请求
+ user_access_qps.json 统计url-userid请求最大qps-单人(以计算url人平均qps)
- Plumelog-me添加日志字段:
```java
MDC.put("USER_ID","用户ID。。。(可能无)");
MDC.put("FROM","来源。。。");
MDC.put("IP","ip、、、");
MDC.put("COST","耗时。。。");
MDC.put("URL","url...");
logger.info("扩展字段");
```
3. 如需定制es查询dsl(原则上是肯定需要修改的),请/doc/static/下 dsl修改后 static文件夹放入项目resource下即可
#### 7. 接口使用反扒三个方案:
1. 使用配置文件,启动全局过滤
```properties
anti.reptile.global-filter-mode: true
```
2. 使用配置文件,只开启具体接口过滤
```properties
anti.reptile.global-filter-mode: false
anti.reptile.include-urls: /xxx
```
3. 使用注解以启动
```properties
anti.reptile.global-filter-mode: false
```
```java
@AntiReptile
@GetMapping("/xxx")
public R hello() {
return R.ok("Hello,World!");
}
```
#### 8. 验证码限流后解锁
1. 添加依赖
```xml
com.bblocks.common
bb-anti-reptile-captcha
1.0.1
```
2. 提取验证码(当前段收到 验证码限流响应码时 调用此接口弹出验证窗口):post /antireptile/captcha/one,响应格式如下:
```json
{
"msg": "成功",
"data": {
"verKey": "fef703da-2528-4c51-882f-35af5850698a",
"image": ""
},
"code": 1
}
```
3. 验证验证码:post /antireptile/captcha/verify?verKey=xxx&verCode=xxx,验证通过即可解除 验证码限流提示
4. 其他属性配置:
```properties
#定义响应对象(可以不配置,以下的均为默认值)
anti.reptile.captcha.code-name: code
anti.reptile.captcha.msg-name: msg
anti.reptile.captcha.data-name: data
#定义成功的code值(一般0/1)
anti.reptile.captcha.code-suc: 1
#验证码有效期(分钟)
anti.reptile.captcha.timeout: 10
```
5. 其他需求参考模块:bb-anti-reptile-captcha,其他解锁如:黑名单解锁也参考:RuleActuator.reset(HttpServletRequest request, String realRequestUri, RuleResultEnum resetTypeLimit)
6. 固定配置的ip黑名单目前直接返回 黑名单限流同时不能解除
### 缺陷/待改进
1. 基于用户的拦截,目前拦截的是token,后续提供用户token转换user_id接口,以达到直接拦截user_id(已实现2024-04-02)
2. 后续再定制验证码方案,目前只是返回了错误码,需要开发定制验证码业务(已实现2024-04-17)
3. 基于Plumelog-me日志统计分析未完成,所以需要自行统计分析写入DB,bb-anti-reptile-data-db负责读取数据源(已实现2024-04-12)
4. 限流属于同步操作,会影响并发后期考虑使用异步限流,以提高性能(火焰分析主要耗时:黑名单验证、限流(大头))
5. 目前的starter 未实现gateway,但是还是感觉限流在gw上更合适,需要实现gw上starter
6. 支持特定策略,sys_access_sum.rate_limit_type 可以配置特定的响应策略(已实现2024-04-12)
7. 支持拦截回调,以记录用户黑名单信息,实现见:NoticeServiceImplDefault(已实现2024-04-16)
### 特技
1. 集成Plumelog-me,可以做到开箱使用,无需配置限流参数值,集成其他平台可以参考实现。
2. 基于统计分析,可以知道每个用户对每个接口的使用需求,按照此系数自动设定每个用户的qps,支持冗余(1、n秒 * qps以平滑,2、qps支持一定的放大系数 3、支持验证码限流,在超过值后允许用户解开验证码再次使用)
3. 基于统计分析,可以统计ip用户数量,以及以及带来的非登录访问qps,以此计算出一个用户会有多少非登录qps,最终得出每个ip限流量,支持冗余(1、n秒 * qps以平滑,2、qps支持一定的放大系数 3、支持验证码限流,再超过值后允许用户解开验证码再次使用)
4. 简单做了性能测试qps能达到:6000(组件添加前:28000)-10线程无业务(amd R5 24G内存),具体测试文件见doc/limit_after.png
### 参与贡献
1. 参考了kk-anti-reptile