65 Star 350 Fork 182

耿直的小爬虫 / Python爬虫

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
README.md 1.01 KB
一键复制 编辑 原始数据 按行查看 历史
耿直的小爬虫 提交于 2020-03-10 23:45 . update README.md.

在如今的反爬高压的形势下 如果你想当爬虫工程师 你学的不仅是使用一切常规库那么简单了

需要会前端的知识 HTML+CSS+JS 懂得前端原理才能更好的提取数据

如今又JS渲染 加密 等反爬措施 最近我也是一直在研究JS渲染等反反爬措施 所以代码更新越来越慢了

学的越多 懂得越多 才能应变未来的反爬趋势

最近也一直在补坑 linux 前端 数据库 HTTP协议 等知识

学爬虫 涉及到的领域还是很多的

目前觉得 静态网页或HTML代码中包含数据 或者JS渲染的 用pyspider框架爬取还是比较省时省力的

用requests就行模拟登陆 爬取数据 对于pyspider来说某种程度上比较灵活

selenium 是个不到万不得已 不会拿出来的 因为部署起来相对于比较麻烦 浏览器 还要驱动等 但是实现的功能 非常强大 就是速度慢 这是诟病了

进阶爬虫阶段 必须得会基本的反爬措施和HTTP前端等协议

路很长 一起努力!

Python
1
https://gitee.com/testp2y/python_reptilian.git
git@gitee.com:testp2y/python_reptilian.git
testp2y
python_reptilian
Python爬虫
master

搜索帮助