# nextcrawler

**Repository Path**: ge-hongru/nextcrawler

## Basic Information

- **Project Name**: nextcrawler
- **Description**: Next Crawler 是使用Playwright + Next.js + Prisma等主流技术搭建的网页数据采集器，通过可视化的UI进行配置，即可周期性的通过Playwright驱动浏览器爬取网页数据。内置支持

- **Primary Language**: JavaScript
- **License**: MIT
- **Default Branch**: main
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 1
- **Forks**: 0
- **Created**: 2025-11-26
- **Last Updated**: 2026-01-14

## Categories & Tags

**Categories**: Uncategorized

**Tags**: playwright, nextjs, prisma

## README

# nextcrawler
## 简介
> Next Crawler 是使用Playwright + Next.js + Prisma等主流技术搭建的网页数据采集器，通过可视化的UI进行配置，即可周期性的通过Playwright驱动浏览器爬取网页数据。内置支持
- 使用mozilla/readability智能识别网页正文;
- 可配置的正文图片自动下载功能;
- 可以选择的文件下载功能，支持PDF、MP3、MP4、等多种格式;
- 可以配置的多字段解析;
- 可以配置的Playwright基本动作;
- 支持定时任务，并且可以配置周期采集数量;
- 支持采集模板，并且支持导入导出;
- 支持代理;
- 支持错误日志;
- 可选的基本用户认证管理。


## 安装指南

### 数据库
> 目前我们默认支持的是MYSQL，我们使用JSON字段存储任意数据，所以需要MYSQL最低版本5.7。MYSQL的安装请参考官方文档。
-  Pgsql、sqlite目前测试

### Node.js版本
> 我们使用的是react19，next.js16。最低Node版本20.9.

### 安装流程
> (1),下载了源代码以后，使用npm 命令安装依赖
-  npm install
 
> (2),Playwright包安装以后，需要执行特有的安装步骤，用来安装下载使用的浏览器。
-  npx playwright install

> (3), Prisma
>   数据库安装好了以后，启动数据库；请修改.env文件中的数据库连接信息，设置正确的数据库连接设置正确。
- DATABASE_URL="mysql://root:root@localhost:3306/nextcrawler"

> 创建对应的数据库：
-  create database nextcrawler;

> 数据库初始化：
-  npx prisma migrate dev --name init

> 完成了上述操作，就可以使用
-  npm run dev

> 启动系统了。
> 如果上面操作顺利，正常情况下，访问 http://localhost:3000/， 进入管理界面

![管理界面](https://raw.githubusercontent.com/g089h515r806/nextcrawler/0d91acc4bb6a7fd552557199ddb901e74a41dc24/public/file/images/demo.jpg)