登录
注册
开源
企业版
高校版
搜索
帮助中心
使用条款
关于我们
开源
企业版
高校版
私有云
Gitee AI
NEW
我知道了
查看详情
登录
注册
12月28日,「开源中国源创会年终盛典」珠海站再次回归!点击免费报名参会
代码拉取完成,页面将自动刷新
开源项目
>
WEB应用开发
>
Web爬虫
&&
捐赠
捐赠前请先登录
取消
前往登录
扫描微信二维码支付
取消
支付完成
支付提示
将跳转至支付宝完成支付
确定
取消
Watch
不关注
关注所有动态
仅关注版本发行动态
关注但不提醒动态
99
Star
623
Fork
201
易水风萧
/
wind-bell
代码
Issues
0
Pull Requests
0
Wiki
统计
流水线
服务
Gitee Pages
JavaDoc
质量分析
Jenkins for Gitee
腾讯云托管
腾讯云 Serverless
悬镜安全
阿里云 SAE
Codeblitz
我知道了,不再自动展开
发行版
最新版
v2.3.1
1722b1b
2022-02-08 22:38
对比
更新底层依赖
易水风萧
本版本为一个优化性更新,主要更新点如下: - 更新底层依赖版本 - 修复安全漏洞
最后提交信息为:
更新基础依赖工具
2.3.0
b26460f
2021-11-17 14:00
对比
2.3.0发布,更新底层依赖
易水风萧
1. 更新底层依赖 1. 优化项目代码注释
最后提交信息为:
new version
2.2.1
65b812e
2020-10-09 21:25
对比
增加附带数据功能
易水风萧
- 更新pom依赖 - 增加附带数据功能 - 优化下载器功能 - 修复一些其他bug
最后提交信息为:
fix bug
2.2.0
a7aa108
2020-06-30 10:57
对比
优化任务停止机制
易水风萧
本次更新内容如下: 1 修复测试接口中传入参数异常时不能正常工作的bug。 2 优化多任务多线程时的同步机制,能更加灵活扩展 3 优化任务状态监控机制 4 优化任务停止逻辑,停止逻辑更加合理 5 其他一些bug优化
最后提交信息为:
Fix the problem of stop state judgment
2.1.0
1e96e8c
2020-06-04 12:50
对比
解决多任务多线程时并发问题
易水风萧
1 解决了多任务多线程模式下引线程安全问题引起的数据异常问题 2 优化系统日志,统一系统日志格式,方便问题排查 3 优化内容页地址匹配逻辑 4 分离业务处理过程 5 优化事件监听接口 6 其他一些优化
最后提交信息为:
new version
2.0.0
dccf47d
2020-05-29 19:07
对比
重大版本更新
易水风萧
更新点如下: 1. 重新定义任务调度器,优化调度相关算法 1. 剥离请求去重模块,能自定义去重逻辑 1. 优化实例别名设置,实现全局别名依赖 1. 修复基于内存实现的请求记录器中的严重漏洞 1. 增加请求深度限制机制,允许设置抓取深度 1. 优化规则构造器,增加构造规则 1. 优化同步启动接口 1. 增加无查询参数去重器 1. 修改XPATH提取内核 1. 优化构造规则,规则组织更合理和人性化 1. 优化定义内容解析器 1. 优化定义链接解析器 1. 优化测试系列接口 1. 优化内容匹配默认设置 1. 增加链接过滤规则,支持多种方式过滤链接 1. 修复处理相对路径时的逻辑错误
最后提交信息为:
new version
1.3.0
09c878c
2020-05-06 22:36
对比
新增众多新特性
易水风萧
1. 新增实例标识符,为每一个风铃虫实例生成一个唯一的标识符 1. 新增设置实例别名功能,允许为风铃虫实例设置一个自定义别名 1. 新增同步启动接口 1. 优化内容解析器和连接解析器生成过程 1. 优化下载器接口,提供更多信息,进一步提升性能 1. 优化资源调度员,提供请求上下文信息,方便自定义控制 1. 优化信息携带机制,可以通过抓取结果获取更多信息 1. 其他一些代码优化
最后提交信息为:
new version
1.2.0
8004fba
2020-04-13 16:50
对比
增加脚本提取功能
易水风萧
1. 增加脚本提取策略,支持通过js脚本从下载的网页中个提取出符合要求的数据信息 1. 增加内容页匹配规则和内容页过滤器,内容页选择方式更灵活 1. 优化代码风格,规范代码,使之更符合阿里开发规约 1. 优化模拟测试接口,增加内容提取测试、链接提取、网页下载、内容页规则测试接口 1. 优化内容页处理策略,提升内容页处理性能 1. 优化事件监听接口,对处理细节更加了然入心 1. 其他一些优化
最后提交信息为:
Add new features
1.1.0
4e7a140
2019-12-28 10:46
对比
风铃虫 1.1.0发布,可以抓取js渲染网页了
易水风萧
1. 移除Httpclient网页下载器及其依赖 1. 新增selenium相关组件,允许用户自定义实现selenium下载器 1. 新增SeleniumDownloader下载器,可以下载前端渲染网页 1. 新增资源回收功能,在风铃虫实例停止时自动回收下载器资源 1. 修复网页SEO信息中keywords提取异常的问题 1. 增加内置编码提取器,自动提取网页编码信息 1. 修改请求的间隔时间和超时等待时间 规则属性的单位,使控制能力更精确 1. 新增关闭请求间隔时间功能,控制能更灵活 1. 新增非法链接过滤功能,自动过滤非法链接,提升抓取效率 2. 优化连接过滤规则,提升抓取效率 3. 优化自定义线程使用数,默认为运行宿主机的核心数
最后提交信息为:
fix bugs
1.0.0
c557dfb
2019-12-19 15:36
对比
风铃虫第一版发布了
易水风萧
风铃虫是一款轻量级的爬虫工具,似风铃一样灵敏,如蜘蛛一般敏捷,能感知任何细小的风吹草动,轻松抓取互联网上的内容。它是一款对目标服务器相对友好的蜘蛛程序,内置了二十余种常见或不常见的浏览器标识,能够自动处理cookie和网页来源信息,轻松绕过服务器限制,智能调整请求间隔时间,动态调整请求频率,防止对目标服务器造成干扰。此外,风铃虫还是一款对普通用户十分友好的工具,它提供的大量链接提取器和内容提取器让用户可以随心所欲地快速配置,甚至于只要提供一个开始请求地址就能配置出自己爬虫程序。同时,风铃虫也开放了许多自定义接口,让高级用户能够根据需要自定义爬虫功能。最后,风铃虫还天然支持分布式和集群功能,让你突破单机环境的束缚,释放出你的爬虫能力。可以说,风铃虫几乎能抓取目前所有的网站里的绝大部分内容。
最后提交信息为:
移除暂停状态
下载
请输入验证码,防止盗链导致资源被占用
取消
下载
Java
1
https://gitee.com/zhiyubujian/wind-bell.git
git@gitee.com:zhiyubujian/wind-bell.git
zhiyubujian
wind-bell
wind-bell
点此查找更多帮助
搜索帮助
Git 命令在线学习
如何在 Gitee 导入 GitHub 仓库
Git 仓库基础操作
企业版和社区版功能对比
SSH 公钥设置
如何处理代码冲突
仓库体积过大,如何减小?
如何找回被删除的仓库数据
Gitee 产品配额说明
GitHub仓库快速导入Gitee及同步更新
什么是 Release(发行版)
将 PHP 项目自动发布到 packagist.org
评论
仓库举报
回到顶部
登录提示
该操作需登录 Gitee 帐号,请先登录后再操作。
立即登录
没有帐号,去注册