1 Unstar Star 0 Fork 0

zlt / collecterJavaApache-2.0

Create your Gitee Account
Explore and code with more than 5 million developers,Free private repositories !:)
Sign up
基于正则表达式实现的纯Java网络内容采集器,可以应用于内容网站或抓取相关资讯。适合Java初学者。 spread retract

Clone or download
Cancel
Notice: Creating folder will generate an empty file .keep, because not support in Git
Loading...
readme.md

收集者网页采集器

基于正则表达式实现的纯Java网络内容采集器。

主类:com.zhiletu.collecter.Collecter

涉及子功能:

1.正则表达式匹配文本和url

2.HTTPclient抓取网页

3.图片转格式与压缩

4.中文分词与文章高频词统计

5.定时执行采集任务

6.采集规则读取、驱动

7.采集数据存储到数据库

8.读取数据库配置文件

9.图片下载并保存到指定目录

10.对文章高频词查询百度词典,并存储到词典库

Comments ( 0 )

Sign in for post a comment

Java
1
https://gitee.com/zltcode/collecter.git
git@gitee.com:zltcode/collecter.git
zltcode
collecter
collecter
master

Search

132457 8cb2edc1 1899542 131848 70c8d3a4 1899542