代码拉取完成,页面将自动刷新
teacher-course-system-app-parent : 应用父模块
teacher-course-system-docorexecl-data-standardization : 数据标准化模块
teacher-course-system-gather : 数据采集模块
teacher-course-system-ETL : 数据清洗
teacher-course-system-gather : 分布式日志采集模块,采集源,log,txt,文本等输入源.
teacher-course-system-hdfs : HADOOP HDFS 操作. (HDFS 公共模块)
teacher-course-system-hiveJob : HIVE Job模块 (hive 数据处理 采集 -> 清洗 -> 导入 -> 处理)
teacher-course-system-JMH-test : 性能测试
teacher-course-system-kafkaFile : kafka输入总线.(废弃)
teacher-course-system-monitoring : 分布式硬件监控{CPU,内存,硬盘容量,应用程序监控}.
teacher-course-system-proxypool : 代理池模块.(每天定时爬取海量IP,进行对比.留下可用的IP,提供其他模块使用)
teacher-course-system-reptile : 网络爬虫模块.
teacher-course-system-test : test测试
teacher-course-system-app-Fileswing : swing桌面应用程序,用于批量处理客户端的文件名称,适用于大规模文件重命名.
teacher-course-system-ftp : FTP模块
teacher-course-system-emailservice : email 服务
teacher-course-system-common : 公共父模块
teacher-course-system-common-zookeeper : zookeeper 公共调用模块
teacher-course-system-common-redis : redis AOP 注解模块
teacher-course-system-common-kafka : KAFKA消息队列模块
teacher-course-system-server : 公共业务模块
teacher-course-system-util : 工具模块
teacher-course-system-model : Bean 模块
teacher-course-system-dao : 公共持久模块
teacher-course-system-rpcServices : DUBBO 公共模块
teacher-course-system-common-spring : spring 插件包
teacher-course-system-common-logger : 日志插件包
teacher-course-system-web-parent : web模块 WEB服务后期改为 spring cloud 模块
caiChang-system-web : web服务
teacher-corese-system-web : web服务
teacher-course-system-web-test : web test
{
# 请求参数配置,可以配置多项,如果需要,开发者可以拿到源码进行二次开发,比如 1.数据库持久化配置,WEB端管理. 2. 替换缓存. 3. 参数配置(认为不够用,可以自行添加自己需要的.)
"requestConfig": [
{
"url": URL,
"rule": http://www.xicidaili.com/nn/?/ 配置page的个数决定?的叠加次数,这里默认为1,会不断+1 用"?/" 可以自动增加. 配置"?/",
"cron": cron表达式,
"regular": 正则,
"page": 是否爬取下一页,
"threadNum": 并发数,推荐与page保持一致,
"jobName": job名称,
"jobGroup": job组,
"timeOut": 连接超时,
"retriesNum": 重试次数
}
],
# 缓存参数配置,支持redis等第三方缓存或者自己写的缓存.
"cacheConfig": {
"cacheClassPath": API接口类 比如 "redis.clients.jedis.JedisCluster",
"service": IP PORT 比如 "192.168.1.111:7002,192.168.1.111:7003,192.168.1.113:7000,192.168.1.113:7001,192.168.1.114:7004,192.168.1.114:7005",
"connectionTimeout": 连接超时 50000,
"soTimeout": 1000,
"maxAttempts": 1,
"password": 密码
},
# 验证爬取IP是否可用
"netConfig" : {
"address" : 配置稳定的URL 比如 "www.baidu.com"
},
# 验证时间,单位分钟. 此参数 如果部署应用为分布式,此参数必须配置.
"validationConfig" : {
"time" : 5
}
}
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。