3 Star 29 Fork 8

云端之风 / 中国统计用区划代码

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README
MulanPSL-1.0

中国统计用区划代码

项目通常更新在Gitee

备份仓库 GitHub

介绍

全国统计用区划代码和城乡划分代码采集

软件架构

  • 本项目采用 nodejs + mysql
  • 当前采集的是最新的全国统计用区划代码和城乡划分代码(会自动检测最新的数据源)
  • 目标地址 全国统计用区划代码和城乡划分代码
  • 项目(V0)创建日期: 2020/08/17 详情可参见分支2021 的 v0目录
  • V1 版本创建日期: 2021/04/28 详情可见分支2021
  • V2 版本创建日期: 2023/06/28 2022分支
  • V3 版本创建日期: 2023/12/06 master分支

说明

  • 软件不是很完善,但基本能满足需要。
  • 不想自己采集可以直接使用项目中的数据库文件
    • data/area.sql 省市区三级(提权直辖区域等级) (2023-12-11 采集)
    • data/area_zx.sql 省市区三级(保留直辖区域等级) (2023-12-12 采集)
    • data/area_full.sql 全量数据(提权直辖区域等级) (2023-12-11 采集)
    • data/area_full_zx.sql 全量数据(保留直辖区域等级) (2023-12-12 采集)
    • .json .js .txt 是对应级别的导出数据
  • .sql导出工具: navicat
  • 数据中不包括港澳台地区
  • 可将问题提交到 issue
  • 可加 QQ: 1479221500,一起探讨交流技术
  • 可加群聊天吹水: 320327825 加群来意可写 交流技术

安装教程

  1. 创建msyql数据库 china_area或者其他名字
    • 推荐使用mysql8.0mysql5.7
    • 使用字符集: uft8mb4
    • 排序规则: utf8mb4_general_ci
  2. 推荐使用 yarn
    • npm install -g yarn
    • yarn config set registry https://registry.npmmirror.com
    • yarn
  3. 如果不想使用 yarn 也可以使用 npm
    • npm config set registry https://registry.npmmirror.com
    • 也可以用cnpm: npm install -g cnpm --registry=https://registry.npmmirror.com
    • npm installcnpm install
  4. 配置一下config.js (配置项跟着注释来)
  5. 运行 yarn gonpm run go 即可开始采集

使用说明 (如果是 npm,则将 yarn xx 改成 npm run xx)

  1. 如果是 windows 平台,需要先输入命令 chcp 65001 否则会中文乱码
  2. yarn go 采集 省市区 三个级别
  3. yarn full 采集 省市区镇村 五个级别,全量采集
  4. yarn exp 采集完成后执行,生成 json 文件
  5. yarn exp js 采集完成后执行,生成 js 文件
  6. yarn exp txt 采集完成后执行,生成 txt 文件

注意事项

  1. windows平台采集前需要输入命令 chcp 65001,否则会乱码,参考unicode-and-windows-terminal
  2. 请不要开多个进程采集,可能导致请求出错而终止,触发防采集机制。
  3. 采集的时候也别浏览相关页面,可能触发防采集机制。
  4. 采集速度变慢了,习惯就好(!_!) 稳定最重要~~
  5. 需要有耐心!
  6. [x]已优化注意事项
  7. 采集前请检查config.jsTB是否修改,默认会继续往后面添加数据,建议使用空表。 已经优化为补充采集Ver3.7
  8. 采集 5 级数据可能会导致内存溢出,需要时不时手动清理一下内存,后续版本想办法修复,3 级没什么问题。 已优化

数据采集测试

多次测试结论: 首次采集完成后会有缓存,后续采集会变快

  • [2023-12-12] 2023 年的省市区数据(保留直辖区域)总共 3076 条数据,采集用时: 59.61秒
  • [2023-12-12] 2023 年全量数据(保留直辖区域)共 665552 条数据,采集用时: 统计数据丢失
  • [2023-12-11] 2023 年全量数据(提权直辖区域)共 665548 条数据,采集用时: 24625.62秒 大约 6小时51分钟
  • [2023-12-08] 2023 年的省市区数据(提权直辖区域)总共 4072 条数据,采集用时: 69.45秒
  • [2023-12-08] 2023 年的省市区数据总共 4072 条数据,采集用时: 150.45秒
  • [2023-12-08] 2023 年的省市区数据总共 4072 条数据,采集用时: 423.42秒
  • [2023-12-07] 2023 年的省市区数据总共 4072 条数据,采集用时: 48.55秒
  • [2023-12-07] 2023 年全量数据共 665376 条数据,采集用时: 51387.27秒 大约 14小时17分钟
  • [2023-12-06] 2023 年的省市区数据总共 4072 条数据,采集用时: 419.76秒
  • [2023-06-28] 2022 年的省市区数据总共 3711 条数据,经多次采集测试,最快用时: 41.63秒
  • [2023-06-28] 2022 年全量数据共 664476 条数据,采集用时: 9666.50秒 大约 2小时41分钟

开发计划

  • 断点采集
    • 多层级采集会遇到采集请求报错采集中断,不得不重新采集,太浪费时间,后续希望能添加在报错的地方继续采集的功能,防止之前采集的数据报废。
    • 思路: 回头再思考一番
      • 数据库记录采集 url
      • 断点续采集就是获取数据库信息生成树形结构,递归遍历判断
  • [ ]支持更多数据
    • 港澳台
    • 其他国家
  • [ ]图形界面
    • electron
    • web
    • 等等
  • [ ]脱离 mysql 数据库
    • 直接生成 json
    • 等等
  • [ ]支持更多数据库
    • sqlite
    • postgreSQL
    • mongodb
    • mariadb
    • 等等
  • [ ]支持更多数据操作
    • 数据多样查询
    • 数据按需导出
  • [ ]支持更多采集操作
    • 只采集某个省份
    • 只采集某个城市
    • 只采集某个区县
    • 只采集某个乡镇
    • 等等

更新日志

V3.8

  • 时间: 2023/12/12 14:35
  • 内容:
    • 采集保留直辖区域等级的全量数据 data/area_full_zx.sql
    • 采集保留直辖区域等级的省市区数据 data/area_zx.sql

V3.7

  • 时间: 2023/12/11 11:00
  • 内容:
    • 经过多次采集,全量数据共 665548 条 (此数据为提权直辖区域后的数据)
    • 优化续采逻辑,防止数据库重复添加数据,防止遗漏数据
    • 下个版本发布不提权直辖区的全量数据 (采集前将config.jsNO_ZX 改为 false)

V3.6

  • 时间: 2023/12/11 02:10
  • 内容:
    • 重新采集三级数据 /data/area.sql
    • 生成 /data/area.json 等 3 级数据导出文件
    • 5 级数据采集中,需要多次采集测试,以及测试续采功能

V3.5

  • 时间: 2023/12/10 19:50
  • 内容:
    • 修复 5 级没有名称的 bug, 关联 ISSUE: I8MZFN
    • 重设数据库表格式,新增采集链接字段
    • 5 级数据采集中... 下个版本提交

V3.4

  • 时间: 2023/12/09 19:00
  • 内容:
    • 增加续采功能
    • 发现问题: 采集速度有点慢

V3.3

  • 时间: 2023/12/07 15:50
  • 内容:
    • 大幅提升采集速度

V3.2

  • 时间: 2023/12/07 01:20
  • 内容:
    • 采集了几个小时请求超时报错,添加重试功能,重新采集

V3.1

  • 时间: 2023/12/06
  • 内容:
    • 更新所有依赖
    • 新增日志插件pino,优化日志输出
    • 解决采集高于 3 级别内存占用太多的 bug
    • 值得注意的是: windows 平台采集前输入命令 chcp 65001 设置控制台的字符编码为 UTF-8,以便正确显示和处理 Unicode 字符。

V3.0

  • 时间: 2023/12/06
  • 内容:
    • 重构代码,弃用 got + cheerio,原因是太不稳定,经常请求超时
    • 重构代码,使用新的采集框架 puppeteer,删除一些非必要的库
    • 重构代码,更新采集规则
    • 优化采集逻辑,将省直辖县级行政区划等区划合并到上一级,可看配置项 NO_ZX,默认是开启,详情可看 ISSUE I826LM
    • 还存在 县直辖村级区划,级别太低了,这个暂时先不管,后面有需求再优化
    • 更新全量数据 data/area_full.sql
    • 更新 3 级数据 data/area.sql
    • 重构代码后,采集速度变慢了,习惯就好(i_i) 稳定最重要~~

V2.1

  • 时间: 2023/06/29
  • 内容:
    • 采集全量数据 data/area_full.sql

V2.0

  • 时间: 2023/06/28
  • 内容:
    • 官网改版了,更新采集源链接和采集规则
    • 改用 yarn
    • 优化使用方法,简化命令

V1.2

  • 时间: 2022/01/14
  • 内容:
    • 更新 2021 年数据采集规则: 数据编码由 gb2312 改为 utf8
    • 数据库存储的城市编码默认改为长编码。由于某些地区直接跳过了第三级导致短码一样(广东中山、广东东莞,海南儋州等)
    • 2021 年三级数据采集为 100s 左右,共 3717 条
    • 2020 年的数据已转移到了 data/2020 中,2021 年数据请自行采集生成

V1.1

  • 时间: 2021/12/23
  • 更新:
    • 新增生成 json 和 js 文件

V1.0

  • 时间: 2021/04/28
  • 更新:
    • 只需要创建数据库,配置表名会自动检测并创建表(如果表已经存在,会继续执行)
    • 优化了 got 请求,加入随机 UA 和伪造随机 ip(不知道有没有啥效果)
    • 采集比上一版本更加稳定
    • 会自动检测最新的数据源(上一版本只能采集 2019 年,需要手动修改链接)
    • 将数据库操作模块由msyql换成kenx + mysql2(用起来简单很多)
  • 缺陷:
    • 如果采集中断开,无法在断开的位置采集,期待下次优化
    • 由于是逐条采集,4 级和 5 级的数据量比较多,所消耗的时间有点多,或许值得等待,但如果中途出错,就难受了
    • 日志和报错的记录还不太完善(没啥空弄)

V0.3 2020/08/17 23:00:00

  1. 将 request 全部换成 got
  2. 修复已知 bug

V0.2 2020/08/17

  1. 加入重试,否则会出现请求失败导致数据不全
  2. 如果是<3 级的数据, 区域代码只存储前面 6 位数

V0.1 2020/08/17

  1. 基本功能
  2. 采集数据存储到 msyql
木兰宽松许可证, 第1版 木兰宽松许可证, 第1版 2019年8月 http://license.coscl.org.cn/MulanPSL 您对“软件”的复制、使用、修改及分发受木兰宽松许可证,第1版(“本许可证”)的如下条款的约束: 0. 定义 “软件”是指由“贡献”构成的许可在“本许可证”下的程序和相关文档的集合。 “贡献者”是指将受版权法保护的作品许可在“本许可证”下的自然人或“法人实体”。 “法人实体”是指提交贡献的机构及其“关联实体”。 “关联实体”是指,对“本许可证”下的一方而言,控制、受控制或与其共同受控制的机构,此处的控制是指有受控方或共同受控方至少50%直接或间接的投票权、资金或其他有价证券。 “贡献”是指由任一“贡献者”许可在“本许可证”下的受版权法保护的作品。 1. 授予版权许可 每个“贡献者”根据“本许可证”授予您永久性的、全球性的、免费的、非独占的、不可撤销的版权许可,您可以复制、使用、修改、分发其“贡献”,不论修改与否。 2. 授予专利许可 每个“贡献者”根据“本许可证”授予您永久性的、全球性的、免费的、非独占的、不可撤销的(根据本条规定撤销除外)专利许可,供您制造、委托制造、使用、许诺销售、销售、进口其“贡献”或以其他方式转移其“贡献”。前述专利许可仅限于“贡献者”现在或将来拥有或控制的其“贡献”本身或其“贡献”与许可“贡献”时的“软件”结合而将必然会侵犯的专利权利要求,不包括仅因您或他人修改“贡献”或其他结合而将必然会侵犯到的专利权利要求。如您或您的“关联实体”直接或间接地(包括通过代理、专利被许可人或受让人),就“软件”或其中的“贡献”对任何人发起专利侵权诉讼(包括反诉或交叉诉讼)或其他专利维权行动,指控其侵犯专利权,则“本许可证”授予您对“软件”的专利许可自您提起诉讼或发起维权行动之日终止。 3. 无商标许可 “本许可证”不提供对“贡献者”的商品名称、商标、服务标志或产品名称的商标许可,但您为满足第4条规定的声明义务而必须使用除外。 4. 分发限制 您可以在任何媒介中将“软件”以源程序形式或可执行形式重新分发,不论修改与否,但您必须向接收者提供“本许可证”的副本,并保留“软件”中的版权、商标、专利及免责声明。 5. 免责声明与责任限制 “软件”及其中的“贡献”在提供时不带任何明示或默示的担保。在任何情况下,“贡献者”或版权所有者不对任何人因使用“软件”或其中的“贡献”而引发的任何直接或间接损失承担责任,不论因何种原因导致或者基于何种法律理论,即使其曾被建议有此种损失的可能性。 条款结束。 如何将木兰宽松许可证,第1版,应用到您的软件 如果您希望将木兰宽松许可证,第1版,应用到您的新软件,为了方便接收者查阅,建议您完成如下三步: 1, 请您补充如下声明中的空白,包括软件名、软件的首次发表年份以及您作为版权人的名字; 2, 请您在软件包的一级目录下创建以“LICENSE”为名的文件,将整个许可证文本放入该文件中; 3, 请将如下声明文本放入每个源文件的头部注释中。 Copyright (c) [2019] [name of copyright holder] [Software Name] is licensed under the Mulan PSL v1. You can use this software according to the terms and conditions of the Mulan PSL v1. You may obtain a copy of Mulan PSL v1 at: http://license.coscl.org.cn/MulanPSL THIS SOFTWARE IS PROVIDED ON AN "AS IS" BASIS, WITHOUT WARRANTIES OF ANY KIND, EITHER EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO NON-INFRINGEMENT, MERCHANTABILITY OR FIT FOR A PARTICULAR PURPOSE. See the Mulan PSL v1 for more details. Mulan Permissive Software License,Version 1 Mulan Permissive Software License,Version 1 (Mulan PSL v1) August 2019 http://license.coscl.org.cn/MulanPSL Your reproduction, use, modification and distribution of the Software shall be subject to Mulan PSL v1 (this License) with following terms and conditions: 0. Definition Software means the program and related documents which are comprised of those Contribution and licensed under this License. Contributor means the Individual or Legal Entity who licenses its copyrightable work under this License. Legal Entity means the entity making a Contribution and all its Affiliates. Affiliates means entities that control, or are controlled by, or are under common control with a party to this License, ‘control’ means direct or indirect ownership of at least fifty percent (50%) of the voting power, capital or other securities of controlled or commonly controlled entity. Contribution means the copyrightable work licensed by a particular Contributor under this License. 1. Grant of Copyright License Subject to the terms and conditions of this License, each Contributor hereby grants to you a perpetual, worldwide, royalty-free, non-exclusive, irrevocable copyright license to reproduce, use, modify, or distribute its Contribution, with modification or not. 2. Grant of Patent License Subject to the terms and conditions of this License, each Contributor hereby grants to you a perpetual, worldwide, royalty-free, non-exclusive, irrevocable (except for revocation under this Section) patent license to make, have made, use, offer for sale, sell, import or otherwise transfer its Contribution where such patent license is only limited to the patent claims owned or controlled by such Contributor now or in future which will be necessarily infringed by its Contribution alone, or by combination of the Contribution with the Software to which the Contribution was contributed, excluding of any patent claims solely be infringed by your or others’ modification or other combinations. If you or your Affiliates directly or indirectly (including through an agent, patent licensee or assignee), institute patent litigation (including a cross claim or counterclaim in a litigation) or other patent enforcement activities against any individual or entity by alleging that the Software or any Contribution in it infringes patents, then any patent license granted to you under this License for the Software shall terminate as of the date such litigation or activity is filed or taken. 3. No Trademark License No trademark license is granted to use the trade names, trademarks, service marks, or product names of Contributor, except as required to fulfill notice requirements in section 4. 4. Distribution Restriction You may distribute the Software in any medium with or without modification, whether in source or executable forms, provided that you provide recipients with a copy of this License and retain copyright, patent, trademark and disclaimer statements in the Software. 5. Disclaimer of Warranty and Limitation of Liability The Software and Contribution in it are provided without warranties of any kind, either express or implied. In no event shall any Contributor or copyright holder be liable to you for any damages, including, but not limited to any direct, or indirect, special or consequential damages arising from your use or inability to use the Software or the Contribution in it, no matter how it’s caused or based on which legal theory, even if advised of the possibility of such damages. End of the Terms and Conditions How to apply the Mulan Permissive Software License,Version 1 (Mulan PSL v1) to your software To apply the Mulan PSL v1 to your work, for easy identification by recipients, you are suggested to complete following three steps: i. Fill in the blanks in following statement, including insert your software name, the year of the first publication of your software, and your name identified as the copyright owner; ii. Create a file named “LICENSE” which contains the whole context of this License in the first directory of your software package; iii. Attach the statement to the appropriate annotated syntax at the beginning of each source file. Copyright (c) [2019] [name of copyright holder] [Software Name] is licensed under the Mulan PSL v1. You can use this software according to the terms and conditions of the Mulan PSL v1. You may obtain a copy of Mulan PSL v1 at: http://license.coscl.org.cn/MulanPSL THIS SOFTWARE IS PROVIDED ON AN "AS IS" BASIS, WITHOUT WARRANTIES OF ANY KIND, EITHER EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO NON-INFRINGEMENT, MERCHANTABILITY OR FIT FOR A PARTICULAR PURPOSE. See the Mulan PSL v1 for more details.

简介

全国统计用区划代码和城乡划分代码采集 展开 收起
NodeJS 等 2 种语言
MulanPSL-1.0
取消

发行版 (2)

全部

贡献者

全部

近期动态

加载更多
不能加载更多了
NodeJS
1
https://gitee.com/sshift/china_area.git
git@gitee.com:sshift/china_area.git
sshift
china_area
中国统计用区划代码
master

搜索帮助