# 抓取行政编码 **Repository Path**: xxxxlll10/captureAreaNumber ## Basic Information - **Project Name**: 抓取行政编码 - **Description**: 从国家统计局抓取2020年的行政编码 - **Primary Language**: Java - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 2 - **Created**: 2018-08-09 - **Last Updated**: 2022-05-27 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README #### 项目介绍 从国家统计局抓取2020年的行政编码及省市区信息 #### 软件架构 1. HtmlClean + XPath 抓取页面数据; 2. 直接将结果输出为CSV文件,字符编码为UTF-8; 3. 使用单线程进行抓取及导出,多线程抓取太不厚道。 #### 安装教程 1. 建议使用JDK16(开发环境为JDK16)。 #### 使用说明 1. 第一个参数为CSV文件的保存路径,如不传则默认为用户根目录。 2. 注意保存路径是否有写权限。 3. 可以使用"-h"或"--help"参数查看使用帮助。 4. 代理文件的内容格式为IP加一个空格再加端口号,每行为一个地址。 代理文件示例: ``` properties 8.129.2.143 3128 117.157.197.18 3128 ``` #### tag说明 | Tag名称 | 说明 | |:-- |:-- | |v1.0|抓取2017年的行政编码,导出为excel| |v2.0|抓取2020年的行政编码,导出的格式为csv,字符编码为UTF-8|