# Scrapy **Repository Path**: ahun/Scrapy ## Basic Information - **Project Name**: Scrapy - **Description**: 《精通scrapy网络爬虫》中代码 - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2020-02-27 - **Last Updated**: 2023-04-03 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 《精通scrapy网络爬虫》 example文件夹内容: 第一章至第七章代码 practise文件夹内容:书本中的练习 toscrape_book 文件夹内容:第八章 代码(ps在原代码基础增加了:去掉重复、以xls格式导出,选择器用的是css) matplotlib_examples 文件夹内容 :第九章 案例中下载matplotlib网站文件 so_image 文件夹内容:第9章 第二节 下载360图片 (为什么只下载到第一页呢???没实现翻页) 1.spiders 蜘蛛 2.items.py 数据保存 3.pipelines.py 数据处理 4.settings.py 设置 5.my_exporters.py 自定义的数据导出格式 ## 常用命名: scrapy crawl < spider > --运行爬虫 scrapy crawl < spider > -o < file > --运行爬虫导出数据 scrapy startproject < name > --创建一个爬虫项目 scrapy genspider [options] < name > < domain > --创建一个爬虫(在startproject里创建) scrapy shell [url|file] --测试 ## 帮助 scrapy -h Use "scrapy -h" to see more info about a command