# webpasser **Repository Path**: luciferaaa/webpasser ## Basic Information - **Project Name**: webpasser - **Description**: webpasser是一款可配置的开源爬虫框架,提供爬虫控制台管理界面,通过配置解析各类网页内容,无需写一句java代码即可抽取所需数据。 - **Primary Language**: Unknown - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 13 - **Created**: 2016-06-10 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README webpasser是一款可配置的开源爬虫框架,提供爬虫控制台管理界面,通过配置解析各类网页内容,无需写一句java代码即可抽取所需数据。 --- 1. 包含强大的页面解析引擎,提供jsoup、xpath、正则表达式等处理链,通过简单配置即可抽取所需的指定内容。 2. 提供爬虫控制管理界面,可实时监控抓取状态,动态添加抓取任务,动态配置定时任务,可对单个网页进行测试抓取。 3. 提供抓取各阶段的触发器、拦截器,方便扩展。 使用: --- 1. 查看目标网站的页面特征,在xml中配置所需抓取内容。 2. 在控制台添加一个抓取任务,将xml配置提交。 3. 对单个网页测试或整个任务执行测试。 4. 在webpasser.project中扩展数据持久化类或使用现有持久化类存储数据。 5. 设置定时任务。