# 抓取国家公开站点 **Repository Path**: xxxxlll10/crawl-national-public-sites ## Basic Information - **Project Name**: 抓取国家公开站点 - **Description**: 抓取国家公开站点 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2021-06-03 - **Last Updated**: 2021-06-04 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ### 文件说明 #### net.sunxiaolong.tool.govwebsites.applications.Consolidation 该类用于将抓取的数据导出为csv文件,导出位置为用户的根目录。 #### net.sunxiaolong.tool.govwebsites.applications.FetchAllAddress 该类用于抓取所有的省市区信息并保存至数据库中,为FetchAllWebsite类抓取数据。 #### net.sunxiaolong.tool.govwebsites.applications.FetchAllMinistry 与FetchAllAddress相似,但抓取的是部委的信息。 #### net.sunxiaolong.tool.govwebsites.applications.FetchAllWebsite 读取FetchAllAddress和FetchAllMinistry抓到的信息,下载对应的站点信息并保存,为Consolidation提供数据。 ### 使用帮助 1. 文件保存位置已硬编码为用户根目录,Mac系统在运行时需要注意提供该位置的读写权限; 2. 使用时先运行FetchAllAddress和FetchAllMinistry,这两个类无运行顺序要求,可根据需要运行; 3. 上一步的类运行完成后,运行FetchAllWebsite类,以抓取站点信息; 4. 上一步的类运行完成后,运行Consolidation类,以导出抓取到的站点信息; 5. 如运行过程中有错误信息,可根据提示人工抓取相关信息;如无错误信息,则表示全部正常; 6. 因数据落地,如需清除数据重新抓取,需要删除用户根目录下的crawlnps.mapdb文件。 ### 落地文件清单 #### crawlnps.mapdb 保存着省市区、部委的信息以及站点信息。 #### website.csv 导出数据产生的文件。