# crawler_study **Repository Path**: chenzhuo_cy/crawler_study ## Basic Information - **Project Name**: crawler_study - **Description**: No description available - **Primary Language**: Java - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2019-04-11 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # crawler_study 2 课后练习: day01 : 使用定时任务10分钟抓取1次,已存数据更新搜索指数 day02 : 使用抓取时间+相对时间,计算出发帖时间[相对时间--太随意] day03 : 熟练json定位与json解析 day04 : 定时抓取与redis去重 day05 : 内容抓取+评论抓取 day06 : day07 : 1 爬取网址 : day01 百度新闻的时时热点 http://top.baidu.com/buzz?b=1 初识jsoup day02 v2ex技术社区 http://www.v2ex.com 熟练jsoup , css定位 day03 v36kr https://36kr.com 熟练css定位结合js-json解析 day04 知乎日报 http://daily.zhihu.com 去重-redis数据库 && 定时抓取 [由小到大] day05 猫眼电影 http://maoyan.com/board/7 外键 + 评论数据 day06 豆瓣电影 http://movie.douban.com 爬虫另类思路 : json思路 , JSON , JSONArray , JSONObject day07 慕课网手记 http://www.imooc.com/article 刷单 -- 刷阅读量 , 爬虫另类玩法 ==> 刷单 0 Idea-Tips : 4 userAgent : Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36 3 F12 : XHR : 数据 , 一般为json , response ==> json格式化 eg : 豆瓣电影-API接口 : API-最新电影: https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&page_limit=50&page_start=0 API-最新电视剧: https://movie.douban.com/j/search_subjects?type=tv&tag=%E7%83%AD%E9%97%A8&page_limit=50&page_start=0 2 plugins : ESTransation ==> 右键翻译 1 shift+F6 : 重命名