1 Star 1 Fork 2

知道不 / ECommerceCrawlers

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
克隆/下载
README.md 8.25 KB
一键复制 编辑 原始数据 按行查看 历史
python 提交于 2019-08-23 20:24 . Update README.md

GitHub contributors

ECommerceCrawlers

多种电商商品数据🐍爬虫,整理收集爬虫练习。通过实战项目练习解决一般爬虫中遇到的问题。

通过每个项目的readme,了解爬取过程分析。

对于精通爬虫的pyer,这将是一个很好的例子减少重复收集轮子的过程。项目经常更新维护,确保即下即用,减少爬取的时间。

对于小白通过✍️实战项目,了解爬虫的从无到有。爬虫过程的分析可以移步项目wiki。爬虫可能是一件非常复杂、技术门槛很高的事情,但掌握正确的方法,在短时间内做到能够爬取主流网站的数据,其实非常容易实现,但建议从一开始就要有一个具体的目标。

在目标的驱动下,你的学习才会更加精准和高效。那些所有你认为必须的前置知识,都是可以在完成目标的过程中学到的😁😁😁。

欢迎大家对本项目的不足加以指正,⭕️Issues或者🔔Pr

在之前上传的大文件贯穿了3/4的commits,发现每次clone达到100M,这与我们最初的想法违背,我们不能很有效的删除每一个文件(太懒),将重新进行初始化仓库的commit。并在今后不上传爬虫数据,优化仓库结构。

Income

几乎80%的项目都是帮客户写的爬虫,在添加到仓库之前已经经过客户同意可开源原则。

收益表

项目 收益 备注
DianpingCrawler 200
TaobaoCrawler 2000
SohuNewCrawler 2500
WechatCrawler 未定 暂无具体收益
某省药监局 80
fofa 700
baidu 1000
蜘蛛泛目录 1000
更多…… …… 另部分程序未得到客户开源认可

CrawlerDemo

Contribution👏

@Joynice @liangweiyang @Hatcat123 @jihu9
Joynice liangweiyang Hatcat123 jihu9

wait for you

What You Learn ?

本项目使用了哪些有用的技术

  • 数据分析
    • chrome Devtools
    • Fiddler
    • Firefox
    • appnium
    • anyproxy
    • mitmproxy
  • 数据采集
  • 数据解析
    • re
    • beautifulsoup
    • xpath
    • pyquery
    • css
  • 数据保存
    • txt文本
    • csv
    • excel
    • mysql
    • redis
    • mongodb
  • 反爬验证
    • mitmproxy 绕过淘宝检测
    • js数据解密
    • js数据生成对应指纹库
    • 文字混淆
    • 穿插脏数据
  • 效率爬虫
    • 单线程
    • 多线程
    • 多进程
    • 异步协成
    • 生产者消费者多线程
    • 分布式爬虫系统

链接标识官方文档或推荐例子

What`s Spider 🕷?

🙋0x01 爬虫简介

爬虫

爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。

爬虫作用

  • 市场分析:电商分析、商圈分析、一二级市场分析等
  • 市场监控:电商、新闻、房源监控等
  • 商机发现:招投标情报发现、客户资料发掘、企业客户发现等

网页介绍

  • url
  • html
  • css
  • js

Roobots协议

无规矩不成方圆,Robots协议就是爬虫中的规矩,它告诉爬虫和搜索引擎哪些页面可以抓取,哪些不可以抓取。 通常是一个叫作robots.txt的文本文件,放在网站的根目录下。

🙋0x02爬取过程

获取数据

模拟获取数据

🙋0x03解析数据

re

beautifulsoup

xpath

yquery

css

🙋0x04 存储数据

小规模数据存储(文本)

  • txt文本
  • csv
  • excel

大规模数据存储(数据库)

  • mysql
  • redis
  • mongodb

🙋0x05 反爬措施

反爬

反反爬

🙋0x06 效率爬虫

多线程

多进程

异步协程

scrapy框架

🙋0x07 可视化处理

flask Web

django Web

tkinter

echarts

electron

Padding

…………

Awesome-Example😍:

Python
1
https://gitee.com/zhidaobu_zkl/ECommerceCrawlers.git
git@gitee.com:zhidaobu_zkl/ECommerceCrawlers.git
zhidaobu_zkl
ECommerceCrawlers
ECommerceCrawlers
master

搜索帮助