# phantom-jsparser-screenshot **Repository Path**: tmluwei/phantom-jsparser-screenshot ## Basic Information - **Project Name**: phantom-jsparser-screenshot - **Description**: 基于phantomjs 实现的JS渲染采集解析与网页截图(例如采集今日头条和一点资讯网站首页数据) - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 1 - **Created**: 2020-04-21 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # JS解析与页面截图服务组件 ``` Author: tang Date : 2017-09-10 Email: inrgihc@126.com ``` 基于开源的phantomjs工具实现的网页渲染抓取与截图服务组件。 ## 一、服务启动 ### 1、查看phantomjs的版本信息 ``` ./phantomjs -v 2.1.1 ``` ### 2、启动组件 ``` cd phantomjs-fetcher ./phantomjs crawler_fetcher.js 12345 ``` ## 二、使用说明 ### 1、接口调用 ``` curl -XPOST "http://127.0.0.1:12345" -d '{"url":"http://www.xupu.gov.cn/","load_images":true,"make_screen":true,"headers":{"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36"},"timeout":120}' ``` 此时会返回页面抓取的HTML及header等信息,并在当前目录的snapshots目录下生成网页截图图片 ### 2、请求参数说明 ``` -------------------------------------------------------------------------- | 参数名称 | 说明 | 示例 | -------------------------------------------------------------------------- | url | 请求抓取的页面URL地址 | http://www.xupu.gov.cn/| -------------------------------------------------------------------------- | load_images |是否加载页面中的图片信息,在截 | 加载为true | | |图时建议加载图片,否则截图中无 | 不加载为false | | |法显示页面中的图片内容 | | -------------------------------------------------------------------------- | make_screen | 是否进行网页截图 | 截图为true,否则为false | -------------------------------------------------------------------------- | headers | 用于设置HTTP请求的头部 | 例如设置User-Agent的值 | -------------------------------------------------------------------------- | timeout | 请求超时的时间 | 单位为:秒。默认为120秒 | -------------------------------------------------------------------------- ``` ### 3、返回的结果 ``` { "orig_url": "http://www.testurl.cn/", "status_code": 200, "content": "
\n\n