1 Unstar Star 0 Fork 54

GSAM / Python爬虫Python

Create your Gitee Account
Explore and code with more than 5 million developers,Free private repositories !:)
Sign up
This repository doesn't specify license. Without author's permission, this code is only for learning and cannot be used for other purposes.
大数据时代 让爬虫爬取我们所需 spread retract

Clone or download
Cancel
Notice: Creating folder will generate an empty file .keep, because not support in Git
Loading...
README.md

在如今的反爬高压的形势下 如果你想当爬虫工程师 你学的不仅是使用一切常规库那么简单了

需要会前端的知识 HTML+CSS+JS 懂得前端原理才能更好的提取数据

如今又JS渲染 加密 等反爬措施 最近我也是一直在研究JS渲染等反反爬措施 所以代码更新越来越慢了

学的越多 懂得越多 才能应变未来的反爬趋势

最近也一直在补坑 linux 前端 数据库 HTTP协议 等知识

学爬虫 涉及到的领域还是很多的

目前觉得 静态网页或HTML代码中包含数据 或者JS渲染的 用pyspider框架爬取还是比较省时省力的

用requests就行模拟登陆 爬取数据 对于pyspider来说某种程度上比较灵活

selenium 是个不到万不得已 不会拿出来的 因为部署起来相对于比较麻烦 浏览器 还要驱动等 但是实现的功能 非常强大 就是速度慢 这是诟病了

进阶爬虫阶段 必须得会基本的反爬措施和HTTP前端等协议

路很长 一起努力!

Comments ( 0 )

Sign in for post a comment

Python
1
https://gitee.com/dushuren/python_reptilian.git
git@gitee.com:dushuren/python_reptilian.git
dushuren
python_reptilian
Python爬虫
master

Search

131423 f1aaba0b 1899542 094922 1c74bed3 1899542