# Crawl-Project **Repository Path**: bgspider/Crawl-Project ## Basic Information - **Project Name**: Crawl-Project - **Description**: No description available - **Primary Language**: Python - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2020-11-03 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 项目和个人笔记 一些有趣的小项目,实现一些小功能,需要的可以下载来玩玩 一些注意事项: # 1、关于怎么爬取抖音,这里我们得先用夜神模拟器去模拟手机的登录环境,然后再通过fiddler去抓包,然后就和我们怎么去爬取网页那就怎么去爬取APP # 2、关于百度文库和千图,房天下,京东,都有涉及到反爬虫机制,这里你必须得会一点JavaScript才可以知道怎么去破解 # 3、这里大多数知识,你要看得懂还是建议先学好爬虫基础,再来实现这些项目 # 4、关于京东的,还有一些小缺陷没有完善,因为这里涉及到分布式的知识,说实话我分布式这块没有学好,所以不太完整,得自己去慢慢探索才行 # 5、关于未来的发展道路,可以的话可以去学习docker和k8s,这些大多数用go语言写的,对了如果学java的话,其实对于我们这些爬虫工程师来说还不如学习go语言,因为go语言大多数是基于C语言的,对于我们这些python工程师来说,比较友好 # 6、Redis内存数据库 MySQL关系数据库 mongobd文档数据库 不同的数据库对应不同的功能,大多数我们爬虫工程师都是用到Redis和MySQL,而且很多应聘都是必须要求熟练使用Redis内存数据库,善用于Redis可以大大提高我们的爬取速率 # 7、关于js破解这块,首先我们得先把破解好的js文件写一个接口去对接我们的python文件,因为毕竟这两门是不同的语言 ```javascript rsaPassword = function(t){ var e= new D; return e.setPublic("xxx") e.encrypt(t) } function getPwd(pwd){ return rsaPassword(pwd); } //通过这个接口把我们要破解的内容放回到getPwd这个函数里面 ``` ```python #先导入我们的接口包 import execjs #设置函数 def getpwd(password): #读取我们的js文件,格式为utf8 with open("xxx.js",'r',encoding='utf8')as f: content = f.read() #然后去解析这个读取的内容 jsdata = execjs.compile(content) #去看js那个函数,并且传入参数 pw = jsdata.call('getPwd',password) print('pw:',pw) return pw if __name__ == '__main__': getpwd('123456') ``` 这个固定格式,基本上照着这样写就完事了,可以百分之99获取我们想要的内容