# bd_spider **Repository Path**: jinzc_coder/bd_spider ## Basic Information - **Project Name**: bd_spider - **Description**: 爬取百家号的文章信息 - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2018-08-01 - **Last Updated**: 2020-12-17 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # bd_spider #### 项目介绍 爬取百家号的文章信息 #### 软件架构 ## 框架与技术 语言:python 数据库:mysql,redis ORM框架:sqlalchemy 其他: phantomJs, selenium #### 启动 启动脚本参照 /shell/ 目录下*.sh 文件 #### 版本与分支 远程master分支,每次提交至master分支的代码均为可运行代码。 |版本号|说明|备注| |:---|:---|:---| |v0.5|完成抓取文章永久地址至redis队列(单采集模块未完成)|| |v0.5.1|修复上一版本中初始化虚拟浏览器的bug|| |v1.0|采集模块完成;调度队列与采集模块联调通过|| |v1.0.1|修正insert文章至数据库时,游离态实体导致的bug|| |v1.0.1-alpha|最初线上版本(只读)|| |v1.0.2-alpha|完善上一版本后发布版|| |temp|为了便于线上服务器代码,清理修改file|线上 -> gitee | |v1.0.x|v1.0版本下的持续修改版| | |v2.0.0|使用scrapy抓取,放弃phantomjs的实现方案| scrapy版 | |v2.5.0|scrapy + selenium phantomjs的实现方案| | |v2.8.1|解决selenium 远程拒绝连接的问题 | 当前运行版(2018/08/16)| |v2.8.5|其他进程监控爬虫异常,触发重启动作| | |v3.0.1|带监控程序的爬虫|phantomjs线程僵死后,爬虫自动重启 | |v3.1.0|删除py监控脚本,添加shell脚本(配置crontab定时监测)|| |v3.1.1|修改重启脚本|每次重启随机查询category(2018/08/22)| |v3.2.0|移除掉redis过滤模块|mysql:无(插入) 有 (更新)(2018/08/24)| |v3.2.5|修复bug若干|| |v3.2.8|爬虫重启时随时生成关键字爬取|| #### 开发日志 程序运行过程中selenium运行一段时间后,报错:remote connection refused. 解决方案:监控并定时重启(2018/08/16). 错误参照: > https://stackoverflow.com/questions/32982387/urlopen-error-errno-111-connection-refused-for-selenium-python 解决方案(2018/08/17): 发生异常时,向redis中发信号,监控程序收到信号后,重启爬虫.