# 第三方文章爬虫系统 **Repository Path**: zsy1988cool/web-article-spider-memo ## Basic Information - **Project Name**: 第三方文章爬虫系统 - **Description**: web-article-spider是一套文章爬虫系统,用于爬取包括腾讯、搜狐、头条文章、一点资讯APP、凤凰新闻APP等第三方文章源,并对文章做数据清洗过滤和封面图提取等。 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2022-01-09 - **Last Updated**: 2022-02-08 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Web Article spider web-article-spider文章爬虫系统是一整套文章爬虫体系,用于爬取搜狐、腾讯、头条、一点资讯APP、凤凰APP等文章,并对爬取的文章做内容数据清洗、文章过滤(劣质作者、内容不丰富、劣迹艺人等)、文章内容广告词过滤、封面图提取等。 子项目包含:ztjy_thirddata_spider(web源爬取脚本python) +ztjy-crawldata-publisher(数据清洗服务java) + 第三方工具服务 其中第三方工具服务包含: - face-clip-server 人脸裁剪服务(python),用于提取文章内部的图片人脸,作为文章封面图片 - toutiao-sign 头条列表页签名服务(python),用于解析头条文章时对列表页的签名 - toutiao-tac 头条详情页签名服务(nodejs),用于解析头条文章详情页的签名 - adb 用于控制爬取APP文章的手机模拟器的操作,模拟人为的文章阅读操作,然后http抓包工具拦截app的文章内容,上传至数据清洗服务做清洗 # 概述 ## 1.架构流程 ![image](http://ztjy-class-record.ztjy61.com/1005620220106152746134J3Lcmbeb.jpg) ## 2.功能示意图 ### 3.爬虫定时任务 ![image](http://ztjy-class-record.ztjy61.com/1005620220106153223614kjMq0pDN.png) ### 4.爬虫任务 ![image](http://ztjy-class-record.ztjy61.com/1005620220106153251795lZIoPKqe.png) ### 5.爬虫钉钉播报 ![image](http://ztjy-class-record.ztjy61.com/1005620220106153333199nqqkdX1E.jpg)