1 Star 0 Fork 2

子沐 / csdn博客抓取

Create your Gitee Account
Explore and code with more than 12 million developers,Free private repositories !:)
Sign up
Clone or Download
README.md 1.38 KB
Copy Edit Raw Blame History
fanfzj@163.com authored 2020-09-20 12:19 . 更新readme文件

csdn博客抓取

介绍

抓取CSDN技术博客文章内容,并存储到数据库中,通过Flask呈现并管理爬虫

软件架构

使用Scrapy_redis模块搭建分布式爬虫,通过Flask+Sqlalchemy+Scapyd的方式进行数据呈现与爬虫管理

安装教程

  1. pip install -r requirement.txt

使用说明

  1. 需要在host文件中,加入两个地址,一个为redis.fzj.com(redis所在的服务IP地址),另一个为mysql.fzj.com(mysql所在的服务IP地址)
  2. 修改csdn下的settings.py文件中的数据库用户名和密码以及redis的密码
  3. 修改csdn下的run.py文件中的数据库用户名和密码

参与贡献

  1. Fork 本仓库
  2. 新建 Feat_xxx 分支
  3. 提交代码
  4. 新建 Pull Request

码云特技

  1. 使用 Readme_XXX.md 来支持不同的语言,例如 Readme_en.md, Readme_zh.md
  2. 码云官方博客 blog.gitee.com
  3. 你可以 https://gitee.com/explore 这个地址来了解码云上的优秀开源项目
  4. GVP 全称是码云最有价值开源项目,是码云综合评定出的优秀开源项目
  5. 码云官方提供的使用手册 https://gitee.com/help
  6. 码云封面人物是一档用来展示码云会员风采的栏目 https://gitee.com/gitee-stars/
Python
1
https://gitee.com/fanfzj/csdn-blog-capture.git
git@gitee.com:fanfzj/csdn-blog-capture.git
fanfzj
csdn-blog-capture
csdn博客抓取
master

Search