# node-crawler **Repository Path**: fanlichuan/node-crawler ## Basic Information - **Project Name**: node-crawler - **Description**: node爬虫 - **Primary Language**: JavaScript - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2023-04-09 - **Last Updated**: 2024-12-25 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # node-crawler 项目部署地址:https://flc.nsusn.com/tutorial/ # 介绍 node 爬虫 # 项目运行+启动 npm run dev 启动 vuepress,启动成功后,打开地址,即可看到爬取到的文档 # 执行爬取数据脚本 npm run crawler [name?] [root?] [num?] # 参考文档 1、教你用 Node JS 写爬虫,超简单!:https://zhuanlan.zhihu.com/p/434944489 # 爬虫概要: 1、思路:请求 url - > html(信息) -> 解析 html # 初始化项目 npm init npm install cheerio turndown vuepress -S 包用途介绍: cheerio: 是 jquery 核心功能的一个快速灵活而又简洁的实现,主要是为了用在服务器端需要对 DOM 进行操作的地方。大家可以简单的理解为用来解析 html 非常方便的工具 turndown:将 html 转成 markdown # 待实现的功能点 1、可配置是否下载图片到本地 2、~~统一爬虫方法~~ 3、~~爬取 jquery 菜鸟教程文档:https://www.runoob.com/jquery/jquery-traversing-siblings.html~~ 4、~~启动项目时,展示内容依赖 docs 而不是 src 文件夹~~ 5、~~统一爬取各个内容的入口~~ 6、~~用 node 命令传入的参数作为函数运行的参数~~