98 Star 613 Fork 197

易水风萧 / wind-bell

2022-02-08 22:38
400404 zhiyubujian 1578922729 易水风萧

本版本为一个优化性更新,主要更新点如下:

  • 更新底层依赖版本
  • 修复安全漏洞
最后提交信息为: 更新基础依赖工具
2021-11-17 14:00
400404 zhiyubujian 1578922729 易水风萧
  1. 更新底层依赖
  2. 优化项目代码注释
最后提交信息为: new version
2020-10-09 21:25
400404 zhiyubujian 1578922729 易水风萧
  • 更新pom依赖
  • 增加附带数据功能
  • 优化下载器功能
  • 修复一些其他bug
最后提交信息为: fix bug
2020-06-30 10:57
400404 zhiyubujian 1578922729 易水风萧

本次更新内容如下:

1 修复测试接口中传入参数异常时不能正常工作的bug。

2 优化多任务多线程时的同步机制,能更加灵活扩展

3 优化任务状态监控机制

4 优化任务停止逻辑,停止逻辑更加合理

5 其他一些bug优化

最后提交信息为: Fix the problem of stop state judgment
2020-06-04 12:50
400404 zhiyubujian 1578922729 易水风萧

1 解决了多任务多线程模式下引线程安全问题引起的数据异常问题
2 优化系统日志,统一系统日志格式,方便问题排查
3 优化内容页地址匹配逻辑
4 分离业务处理过程
5 优化事件监听接口
6 其他一些优化

最后提交信息为: new version
2020-05-29 19:07
400404 zhiyubujian 1578922729 易水风萧

更新点如下:

  1. 重新定义任务调度器,优化调度相关算法
  2. 剥离请求去重模块,能自定义去重逻辑
  3. 优化实例别名设置,实现全局别名依赖
  4. 修复基于内存实现的请求记录器中的严重漏洞
  5. 增加请求深度限制机制,允许设置抓取深度
  6. 优化规则构造器,增加构造规则
  7. 优化同步启动接口
  8. 增加无查询参数去重器
  9. 修改XPATH提取内核
  10. 优化构造规则,规则组织更合理和人性化
  11. 优化定义内容解析器
  12. 优化定义链接解析器
  13. 优化测试系列接口
  14. 优化内容匹配默认设置
  15. 增加链接过滤规则,支持多种方式过滤链接
  16. 修复处理相对路径时的逻辑错误
最后提交信息为: new version
2020-05-06 22:36
400404 zhiyubujian 1578922729 易水风萧
  1. 新增实例标识符,为每一个风铃虫实例生成一个唯一的标识符
  2. 新增设置实例别名功能,允许为风铃虫实例设置一个自定义别名
  3. 新增同步启动接口
  4. 优化内容解析器和连接解析器生成过程
  5. 优化下载器接口,提供更多信息,进一步提升性能
  6. 优化资源调度员,提供请求上下文信息,方便自定义控制
  7. 优化信息携带机制,可以通过抓取结果获取更多信息
  8. 其他一些代码优化
最后提交信息为: new version
2020-04-13 16:50
400404 zhiyubujian 1578922729 易水风萧
  1. 增加脚本提取策略,支持通过js脚本从下载的网页中个提取出符合要求的数据信息
  2. 增加内容页匹配规则和内容页过滤器,内容页选择方式更灵活
  3. 优化代码风格,规范代码,使之更符合阿里开发规约
  4. 优化模拟测试接口,增加内容提取测试、链接提取、网页下载、内容页规则测试接口
  5. 优化内容页处理策略,提升内容页处理性能
  6. 优化事件监听接口,对处理细节更加了然入心
  7. 其他一些优化
最后提交信息为: Add new features
2019-12-28 10:46
400404 zhiyubujian 1578922729 易水风萧
  1. 移除Httpclient网页下载器及其依赖
  2. 新增selenium相关组件,允许用户自定义实现selenium下载器
  3. 新增SeleniumDownloader下载器,可以下载前端渲染网页
  4. 新增资源回收功能,在风铃虫实例停止时自动回收下载器资源
  5. 修复网页SEO信息中keywords提取异常的问题
  6. 增加内置编码提取器,自动提取网页编码信息
  7. 修改请求的间隔时间和超时等待时间 规则属性的单位,使控制能力更精确
  8. 新增关闭请求间隔时间功能,控制能更灵活
  9. 新增非法链接过滤功能,自动过滤非法链接,提升抓取效率
  10. 优化连接过滤规则,提升抓取效率
  11. 优化自定义线程使用数,默认为运行宿主机的核心数
最后提交信息为: fix bugs
2019-12-19 15:36
400404 zhiyubujian 1578922729 易水风萧

风铃虫是一款轻量级的爬虫工具,似风铃一样灵敏,如蜘蛛一般敏捷,能感知任何细小的风吹草动,轻松抓取互联网上的内容。它是一款对目标服务器相对友好的蜘蛛程序,内置了二十余种常见或不常见的浏览器标识,能够自动处理cookie和网页来源信息,轻松绕过服务器限制,智能调整请求间隔时间,动态调整请求频率,防止对目标服务器造成干扰。此外,风铃虫还是一款对普通用户十分友好的工具,它提供的大量链接提取器和内容提取器让用户可以随心所欲地快速配置,甚至于只要提供一个开始请求地址就能配置出自己爬虫程序。同时,风铃虫也开放了许多自定义接口,让高级用户能够根据需要自定义爬虫功能。最后,风铃虫还天然支持分布式和集群功能,让你突破单机环境的束缚,释放出你的爬虫能力。可以说,风铃虫几乎能抓取目前所有的网站里的绝大部分内容。

最后提交信息为: 移除暂停状态
Java
1
https://gitee.com/zhiyubujian/wind-bell.git
git@gitee.com:zhiyubujian/wind-bell.git
zhiyubujian
wind-bell
wind-bell

搜索帮助