1 Star 4 Fork 4

ChinaLym / learn-spider

2020-06-01 21:47
ChinaLym

实现功能

爬取某新闻网站,并将其保存到文件中,以供后续文字处理和神经网络模型的训练

启动时触发一次全量爬取,每天凌晨2点自动更新

在 test 包中,通过函数式编程实现爬取功能(10行代码左右)

在 java 包中,以面向对象的思想实现,并抽象出通用爬虫框架


后续将实现分布式版本

最后提交信息为: add readme
Java
1
https://gitee.com/ChinaLym/learn-spider.git
git@gitee.com:ChinaLym/learn-spider.git
ChinaLym
learn-spider
learn-spider

搜索帮助

14c37bed 8189591 565d56ea 8189591