爬取某新闻网站,并将其保存到文件中,以供后续文字处理和神经网络模型的训练
启动时触发一次全量爬取,每天凌晨2点自动更新
在 test 包中,通过函数式编程实现爬取功能(10行代码左右)
在 java 包中,以面向对象的思想实现,并抽象出通用爬虫框架
后续将实现分布式版本