# node-crawler

**Repository Path**: fanlichuan/node-crawler

## Basic Information

- **Project Name**: node-crawler
- **Description**: node爬虫
- **Primary Language**: JavaScript
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 1
- **Forks**: 0
- **Created**: 2023-04-09
- **Last Updated**: 2024-12-25

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# node-crawler

项目部署地址：https://flc.nsusn.com/tutorial/

# 介绍

node 爬虫

# 项目运行+启动

npm run dev 启动 vuepress，启动成功后，打开地址，即可看到爬取到的文档

# 执行爬取数据脚本

<!-- name：名称（git、jquery………）root：根路径：（src、docs），num：爬取数量（默认 undefined，即所有）。默认值：npm run crawler git docs undefined -->
<!-- 带?的为可选参数 -->

npm run crawler [name?] [root?] [num?]

# 参考文档

1、教你用 Node JS 写爬虫，超简单！：https://zhuanlan.zhihu.com/p/434944489

# 爬虫概要：

1、思路：请求 url - > html（信息） -> 解析 html

# 初始化项目

npm init
npm install cheerio turndown vuepress -S

包用途介绍：
cheerio： 是 jquery 核心功能的一个快速灵活而又简洁的实现，主要是为了用在服务器端需要对 DOM 进行操作的地方。大家可以简单的理解为用来解析 html 非常方便的工具
turndown：将 html 转成 markdown

# 待实现的功能点

1、可配置是否下载图片到本地
2、~~统一爬虫方法~~
3、~~爬取 jquery 菜鸟教程文档：https://www.runoob.com/jquery/jquery-traversing-siblings.html~~
4、~~启动项目时，展示内容依赖 docs 而不是 src 文件夹~~
5、~~统一爬取各个内容的入口~~
6、~~用 node 命令传入的参数作为函数运行的参数~~