# lactone **Repository Path**: wan3574489/lactone ## Basic Information - **Project Name**: lactone - **Description**: PHP 分布式爬虫 - **Primary Language**: Unknown - **License**: Apache-2.0 - **Default Branch**: V0.1.1 - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2015-07-14 - **Last Updated**: 2021-03-16 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README #lactone# ###V0.1.1版本## ####总结## 1. 完成基本的数据库定义,包括主表中的任务表,客户端表和辅助表队列表。 2. Spider和Server两端的通讯完成,现在系统已经能够正常的运行。 3. 基本的日志输出。 4. 基本的配置项处理。 5. 知乎用户数抓取完成。 ####问题## 1. 运行效率不够,Spider机器所占用的资源很少,网络,CPU,硬盘所占用的开销比较小,任务处理慢。 2. 请求发送端和页面处理端应该分开。 3. 队列表占用的资源很多,队列表很容易就上百万行。 4. 日志表不够完善,没有办法准确定位到具体的问题,推荐下一版本加入详尽的日志处理,还可以加入日志过滤等功能。 5. 对系统异常(例如,Spider重启,Server重启等)没有进行很好的处理,导致Spider对应的任务数会产生错误。 6. 对任务的生成和结束要有一个详尽的日志进行记录,需要有一个可视化的页面查看系统详尽的信息。 ###V0.1.2版本## ####需求## 1. 加入redis,看是否能够加快速度。 2. Spider的mysql请求的链接都使用链接池来完成。 3. 请求发送端和结果处理分开。