3 Star 3 Fork 1

猿来是这样 / baike_spider

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README

#spider_main.py---爬虫调度端:启动爬虫,停止爬虫,监视爬虫运行情况

#url_manager.py---URL管理器:对将要爬取的和已经爬取过的URL进行管理;可取出带爬取的URL,将其传送给“网页下载器”

#html_downloader.py---网页下载器:将URL指定的网页下载,存储成一个字符串,在传送给“网页解析器”

#html_parser.py---网页解析器:解析网页可解析出①有价值的数据②另一方面,每个网页都包含有指向其他网页的URL,解析出 来后可补充进“URL管理器”

#html_outputer.py---网页输出器:从网页解析器分析拿到的数据和url,按照编码好的格式以html的形式展示出来

#python3.6 #windows8

#run:运行调度端(spider_main.py)里的SpiderMain()方法,等到爬虫爬取完后,刷新项目,会在里面生成一个output.html 和output.md文件,这是最终需要的文件

#该爬虫是在python3.6环境下开发的,需要注意的是,内部一些方法和包和python2.7有所不同。

空文件

简介

这是一个入门的通过BeautifulSoup4框架编写的爬取”Python”百科词条的1000个页面及数据的项目,适合刚入门的爬虫爱好者练手 展开 收起
Python
取消

发行版

暂无发行版

贡献者

全部

近期动态

加载更多
不能加载更多了
Python
1
https://gitee.com/null_445_0302/baike_spider.git
git@gitee.com:null_445_0302/baike_spider.git
null_445_0302
baike_spider
baike_spider
master

搜索帮助