# areacrawler **Repository Path**: lzyForShade/areacrawler ## Basic Information - **Project Name**: areacrawler - **Description**: 行政区划爬虫工程 - **Primary Language**: Unknown - **License**: MulanPSL-1.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2019-12-25 - **Last Updated**: 2021-12-31 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # wfc行政区划数据爬虫 本项目是一个SpringBoot工程。该爬虫只针对最新国家统计局网站行政区划数据进行爬取。 ## 使用说明 1. 使用IDE工具下载源码并启动 2. 启动后在浏览器地址输入`http://localhost:2000`即可进入爬虫配置页面 3. 根据页面上的配置项进行必要的配置 4. 点击`运行`按钮即可启动爬虫 ## 配置说明 ```yml areacrawler: downloadMaxTryCount: 5 # 下载尝试最大次数 sqlBatchCount: 500 # 数据库批量写入数量 stats: areaUrl: http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/ # 国家统计局行政区划链接 year: 2016 # 年份 totalLength: 12 # 编码总长度 ``` ## 注意事项 + 爬取的行政区划网页会缓存在当前运行目录下的`/temp/doc`目录,若出现多次爬取的情况,相同文件名会使用缓存到本地的文件 + 爬取`成功`的数据会以JSON的格式保存在当前运行目录下的`temp/AreaList.json`文件中 + 爬取`失败`的数据会以JSON的格式保存在当前运行目录下的`temp/FaildList.json`文件中(一般不会出现该文件,但若出现则需要手动处理) + 若勾选了直接生成到数据库的选项,则会在当前运行目录下的`/temp/generated`目录生成若干`*.sql`文件,这些文件会在填写的数据库中执行。