# scrapy_tutorial **Repository Path**: darebeat/scrapy_tutorial ## Basic Information - **Project Name**: scrapy_tutorial - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2021-04-08 - **Last Updated**: 2021-04-13 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # scrapy 学习和使用scrapy,简单快速写出自己的爬虫程序. ## 常用命令备注 ```sh # 这将在该project_dir目录下创建一个Scrapy项目。 # 如果project_dir没有指定,project_dir将会和myproject名称一样。 scrapy startproject myproject [ project_dir ] cd project_dir # 创建一个新的爬虫 scrapy genspider mydomain mydomain.com # 列出所有spider scrapy list # 运行spider scrapy crawl fang ``` ## Scrapy shell 调试代码 学习如何使用Scrapy提取数据的最好方法是尝试使用shell Scrapy shell的选择器。 ```py scrapy shell 'http://quotes.toscrape.com/page/1/' # CSS选择元素 response.css('title') response.css('title::text').extract() response.css('title').extract() response.css('title::text').extract_first() response.css('title::text')[0].extract() # re()方法使用正则表达式提取 response.css('title::text').re(r'Quotes.*') response.css('title::text').re(r'Q\w+') response.css('title::text').re(r'(\w+) to (\w+)') # XPath选择元素 response.xpath('//title') ``` ## tesseract ```sh apt install tesseract-ocr brew install tesseract pip3 install pytesseract pip3 install pillow pip install PIL ``` ## 目录结构说明 ``` . ├── README.md ├── docker # docker环境部署 ├── main.py # 启动类 ├── out # 文件输出目录 ├── requirements.txt # 依赖包 ├── scrapy.cfg # 项目结构配置 ├── sqls # sql初始化文件 └── src # 源代码地址    ├── __init__.py    ├── configs # 自定义配置文件    ├── items # 自定义数据类    ├── middlewares # 自定义中间件    ├── pipelines # 自定义管道处理    ├── spiders # 自定义爬虫类    ├── test # 测试用例    ├── utils # 工具类    └── settings.py # 项目通用配置 ```