# areacrawler

**Repository Path**: lzyForShade/areacrawler

## Basic Information

- **Project Name**: areacrawler
- **Description**: 行政区划爬虫工程
- **Primary Language**: Unknown
- **License**: MulanPSL-1.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 1
- **Forks**: 0
- **Created**: 2019-12-25
- **Last Updated**: 2021-12-31

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# wfc行政区划数据爬虫
本项目是一个SpringBoot工程。该爬虫只针对最新国家统计局网站行政区划数据进行爬取。

## 使用说明
1. 使用IDE工具下载源码并启动
2. 启动后在浏览器地址输入`http://localhost:2000`即可进入爬虫配置页面
3. 根据页面上的配置项进行必要的配置
4. 点击`运行`按钮即可启动爬虫

## 配置说明
```yml
areacrawler:
  downloadMaxTryCount: 5 # 下载尝试最大次数
  sqlBatchCount: 500 # 数据库批量写入数量
  stats:
    areaUrl: http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/ # 国家统计局行政区划链接
    year: 2016 # 年份
    totalLength: 12 # 编码总长度
```

## 注意事项
+ 爬取的行政区划网页会缓存在当前运行目录下的`/temp/doc`目录，若出现多次爬取的情况，相同文件名会使用缓存到本地的文件
+ 爬取`成功`的数据会以JSON的格式保存在当前运行目录下的`temp/AreaList.json`文件中
+ 爬取`失败`的数据会以JSON的格式保存在当前运行目录下的`temp/FaildList.json`文件中(一般不会出现该文件，但若出现则需要手动处理)
+ 若勾选了直接生成到数据库的选项，则会在当前运行目录下的`/temp/generated`目录生成若干`*.sql`文件，这些文件会在填写的数据库中执行。