代码拉取完成,页面将自动刷新
本项目是Python 数据采集项目结构化的模板,目录结构仅供参考,根据项目实际情况进行调整。
建议在sample/modules
文件夹下去初始化并使用以下框架(后面如果发现更好的会持续补充说明)。
这里我建议是轻量采集用下面的feapder-AirSpider,一个函数就可以满足需求。重量采集使用scarpy或者feapder-Spider
scarpy 分布式重量采集
统一使用py3.7版本
├── config # 配置文件目录
├── data # 数据文件存放目录
├── docker # 构建docker镜像的目录
├── docs # 放置项目文档的目录,如接口api文档、需求文档等
├── logs # 放置日志文件的目录
├── models # 模型文件存放目录
├── sample # 项目主体代码目录,该目录下的子目录仅供参考,根据实际情况调整
│ ├── __init__.py # 主体代码的入口
│ ├── log # 日志对象
│ ├── modules # 可复用模块目录
│ ├── scripts # 常用脚本目录,如直接调用主体代码脚本等。
│ ├── service # 提供主体代码的RESTFUL调用服务,服务框架为fastapi
│ │ ├── app.py # flask的主入口文件
│ ├── tests # 测试代码的目录
│ ├── utils # 常用工具函数目录
│ ├── ....
├── .gitignore # git忽略追踪文件
├── LICENSE # 开源许可证明
├── requirements.txt # 依赖文件
├── README.md # read me 文件
注:需要将项目名称sample和目录中的sample都改成相应的模块名称
logs/info.log
文件下,WARNING级别以上的日志会放在logs/error.log
文件下,并输出到
stderr中,可在config/config.py
中修改配置from sample.log import logger
logger.info("Hello.")
https://loguru.readthedocs.io/en/stable/index.html
$ flask run
# 启动后,服务就部署在http://127.0.0.1:5000上
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。