#DivisonsCodeTools 根据国家统计局网址 http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm
进行统计的统计用区划和城乡划分代码
1 程序使用了HtmlAgilityPack 和 Newtonsoft.Json
2 统计到第四级: 省-市-区-县/街道,其实程序已经取到了第五级居委,一般用的少,就没加. 有需要的朋友,可以自己加.
3 爬下来的数据,转换为json 并保存.
4 原理很简单,网页抓取-- 解析-- 取数据 -- 再根据数据--再抓取.
5 没有啥特别的技术.发布这个源码,也是为了给自己,或者有这方面需要的朋友提供一个方便.
===========================update by 2020-08-10===============================
1、修改了抓取等待间隔,单次执行500毫秒
2、去掉了线程池,改为单一线程
3、在抓取过程中发现部分城市有无地区的情况,直接从街道提取。
4、还有部分区下没有街道和居委。在抓取时,也做了判断。
===========================update by 2020-06-16 =========================
项目重新用vs2019创建,.NET版本使用4.7.2
1、代码重构了。
2、使用控制台进行数据的爬取。
3、官方网站验证码机制去掉了(唉,我想骂街)。
4、官方网站服务器经常会报“远程服务器返回错误: (502) 错误的网关”,所以增加了针对此问题的修复,线程等待2分钟,再次重新抓取,直到成功为止。
5、数据抓取到居委级别,第5级。
==========================update by 2019-08-12 ======================
工程项目使用VS2012创建,建议使用VS2012以上IDE打开使用。
1、修改了入口Get Index页面URL方法的BUG
2、由于国家统计局网站,增加了验证码的机制,所以交互时设定了1500毫秒的延迟。
3、根目录下 Divison.json文件是2019-08-12号刚刚爬下来的,取到四级区划代码。
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。