利用node + 正则实现自定义抓取网站信息接口: 利用node + 正则实现自定义抓取网站信息接口

基于nodejs 实现爬取网站源码并正则抓取信息接口

npm install 
node index.js

http://localhost:3000/

get

参数

url 需要抓取信息的网站地址

reg 正则

用处：利用正则抓取网站信息

抓取虾米音乐歌单：

url=https://www.xiami.com/billboard/102

reg = <img class="logo" src=["|']?(.?)["|']?\s.?>

(.*?)
http://localhost:3000/?url=https://www.xiami.com/billboard/102&reg=
<img class="logo" src=["|']?(.?)["|']?\s.?>
(.*?)
结果

抓取网站所有图片：

<img.?src=["|']?(.?)["|']?\s.*?>

抓取酷狗歌单和连接

url: https://www.kugou.com/yy/rank/home/1-37361.html?from=rank

reg:

抓取小说：

url：http://www.yuetutu.com/cbook_23452/1.html

reg：

((.|\n)+?)

lih / 利用node + 正则实现自定义抓取网站信息接口

基于nodejs 实现爬取网站源码并正则抓取信息接口

简介

发行版

贡献者

近期动态

lih / 利用node + 正则实现 自定义抓取网站信息接口 .gitee-modal { width: 500px !important; }

基于nodejs 实现 爬取网站源码并正则抓取信息 接口

简介

发行版

贡献者

近期动态

搜索帮助

lih / 利用node + 正则实现自定义抓取网站信息接口

基于nodejs 实现爬取网站源码并正则抓取信息接口