# hronet **Repository Path**: lzjcnb/hronet ## Basic Information - **Project Name**: hronet - **Description**: 爬取马蜂窝的旅游信息 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 3 - **Forks**: 0 - **Created**: 2021-06-30 - **Last Updated**: 2025-09-17 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ## 1.项目简介 爬取马蜂窝旅游网站的信息 ## 2.项目技术要点 scrapy+pyppeteer进行爬虫 scrapy 充当 爬取数据、存储数据库 pyppeteer 充当 发起请求 渲染页面 收集请求 gerapy_pyppeteer 是scrapy和pyppeteer结合在一起的框架,简单来说就是 将pyppeteer封装成scrapy中一个中间件和scrapy中的请求对象,scrapy可以pyppeteer进行模拟请求 ## 3.项目注意事项 本项目使用的是ip动态代理池,所以要接入另外一个项目,[地址](https://gitee.com/lzjcnb/crew-proxy)。 ## 4.项目实施效果 hronet.html是爬取的网页HTML代码 screenshot.png是爬取网页截图PNGt图片 ![爬虫页面](./screenshot.png)