README.md · 耿直的小爬虫/Python爬虫

加入 Gitee

与超过 1200万开发者一起发现、参与优秀开源项目，私有仓库也完全免费：）

该仓库未声明开源许可证文件（LICENSE），使用请关注具体项目描述及其代码上游依赖。

克隆/下载

README.md 1.01 KB

提交于 2020-03-10 23:45 . update README.md.

在如今的反爬高压的形势下如果你想当爬虫工程师你学的不仅是使用一切常规库那么简单了

需要会前端的知识 HTML+CSS+JS 懂得前端原理才能更好的提取数据

如今又JS渲染加密等反爬措施最近我也是一直在研究JS渲染等反反爬措施所以代码更新越来越慢了

学的越多懂得越多才能应变未来的反爬趋势

最近也一直在补坑 linux 前端数据库 HTTP协议等知识

学爬虫涉及到的领域还是很多的

目前觉得静态网页或HTML代码中包含数据或者JS渲染的用pyspider框架爬取还是比较省时省力的

用requests就行模拟登陆爬取数据对于pyspider来说某种程度上比较灵活

selenium 是个不到万不得已不会拿出来的因为部署起来相对于比较麻烦浏览器还要驱动等但是实现的功能非常强大就是速度慢这是诟病了

进阶爬虫阶段必须得会基本的反爬措施和HTTP前端等协议

路很长一起努力！

Python

https://gitee.com/testp2y/python_reptilian.git

git@gitee.com:testp2y/python_reptilian.git

testp2y

python_reptilian

Python爬虫

master

耿直的小爬虫 / Python爬虫