# Java-Crawler **Repository Path**: lin-yi-xiao-chai/java-crawler ## Basic Information - **Project Name**: Java-Crawler - **Description**: 使用 Java 进行爬虫,逐渐熟悉爬虫技术,小爬虫项目。 - **Primary Language**: Java - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2023-05-21 - **Last Updated**: 2023-05-31 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Java-Crawler #### 介绍 使用 Java 进行爬虫,逐渐熟悉爬虫技术,小爬虫项目。小爬虫训练。 #### 软件架构 软件架构说明 JavaClient + Jsoup + SpringBoot + Mybatis ### 表的结构sql: DROP TABLE IF EXISTS `jd_item`; CREATE TABLE `jd_item` ( `id` int NOT NULL AUTO_INCREMENT COMMENT '主键id', `spu` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_0900_ai_ci NULL DEFAULT NULL COMMENT '商品spu', `sku` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_0900_ai_ci NULL DEFAULT NULL COMMENT '商品最小品类单元id', `title` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_0900_ai_ci NULL DEFAULT NULL COMMENT '商品标题', `price` decimal(10, 2) NULL DEFAULT NULL COMMENT '商品价格', `pic` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_0900_ai_ci NULL DEFAULT NULL COMMENT '商品图片', `url` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_0900_ai_ci NULL DEFAULT NULL COMMENT '商品详情地址', `created` datetime NULL DEFAULT NULL COMMENT '创建时间', `updated` datetime NULL DEFAULT NULL COMMENT '更新时间', PRIMARY KEY (`id`) USING BTREE ) ENGINE = InnoDB AUTO_INCREMENT = 529 CHARACTER SET = utf8mb4 COLLATE = utf8mb4_0900_ai_ci ROW_FORMAT = Dynamic; SET FOREIGN_KEY_CHECKS = 1; #### 使用说明 开启SpringBoot中的Application下的主函数即可使用; HttpUtils是对HttpClient抓取数据的一个封装类; 主要爬虫功能实现是ItemTask类下,使用了@EnableScheduling注解开启定时器,在ItemTask类方法上用了@Scheduled注解,使得每过一段时间会进行爬取,然后存入数据库中。 ### 爬取内容 爬了京东上的手机信息=》手机名、手机图片、spu、sku、价格、对应手机页面链接等等。 #### 特技 爬自己需要的网络资源