1 Star 0 Fork 0

勇敢牛牛 / sim-py-crawler

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README

sim-py-crawler

介绍

python爬虫包

注意:仅供学习交流使用,切勿非法爬取数据;合理控制爬取间隔时间,避免对源站造成过大影响

支持内容

豆瓣影评爬虫

采集字段: 用户名、评分、点赞数、日期、评论内容

说明: 由于豆瓣限制,未登录用户只能查看前20页评论内容,如果要采集更多内容,请先登录。

示例:

from douban.crawler import DouBanCrawler

if __name__ == '__main__':
    dbc = DouBanCrawler(30, 0.2)
    #登录
    dbc.login('手机号', '密码')
    #获取数据
    data_list = dbc.get_comment(25853071)
    #保存到CSV
    dbc.save_to_csv(data_list, 'D:/study/crawler_data/豆瓣影评/庆余年豆瓣影评.csv')

输入图片说明

知乎问题爬虫

采集字段: 用户名、用户签名、点赞数、回答内容

说明: 采用半自动模式(需要手动扫码登陆),需要开启浏览器显示;分页参数等同于下拉到底部后异步加载数据的次数

示例:

from zhihu.crawler import ZhiHuCrawler

if __name__ == '__main__':
    zhc = ZhiHuCrawler(30, 5,True)
    zhc.login()
    data_list = zhc.get_answer(360528621)
    zhc.save_to_csv(data_list, 'D:/study/crawler_data/知乎/电视剧《庆余年》中有什么细思极恐的情节.csv')

输入图片说明

空文件

简介

暂无描述 展开 收起
Python
取消

发行版

暂无发行版

贡献者

全部

近期动态

加载更多
不能加载更多了
Python
1
https://gitee.com/xgpxg/sim-py-crawler.git
git@gitee.com:xgpxg/sim-py-crawler.git
xgpxg
sim-py-crawler
sim-py-crawler
master

搜索帮助