# 手写简单的爬虫框架 **Repository Path**: redbeancc/SimpleSpiderFrame ## Basic Information - **Project Name**: 手写简单的爬虫框架 - **Description**: 爬取的是蜗牛笔记,手写一个简单的爬虫框架,有爬虫调度器,url管理器,解析器,下载器以及资源存储器,运行启动爬虫调度器 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2021-10-13 - **Last Updated**: 2021-10-22 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 手写简单的爬虫框架 #### 介绍 爬取的是蜗牛笔记,手写一个简单的爬虫框架,有爬虫调度器,url管理器,解析器,下载器以及资源存储器,运行启动爬虫调度器 #### 项目结构 CxDataOutput.py 资源存储器,存储为csv文件,存储路径为本文件夹内 CxHTMLDownloader.py 下载器,下载网页 CxHTMLParser.py 解析器,对下载下来的网页进行解析 CxSpiderMain.py 爬虫调度器,对所有模块进行调度 CxURLManager.py url管理器,对url进行管理 11.html、22.html以及parseTest.py是我写的测试文件 #### 项目启动 运行爬虫调度器 #### 说明 解析方法用的bs4,每次访问时间间隔为1s,避免网站封ip,访问次数设置为100次,具体可根据具体需求修改 # 路在脚下 # 仅作个人学习使用