# normal_spider

**Repository Path**: maergaiyun/normal_spider

## Basic Information

- **Project Name**: normal_spider
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-07-06
- **Last Updated**: 2025-07-06

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 快速新闻爬虫 - 使用说明

这是一个轻量级、快速的新闻爬虫，旨在从指定的新闻网站首页抓取最新的文章链接，并提取每篇文章的标题和正文。

## 核心功能

- **单一入口**: 通过 `web_spider_run.py` 提供唯一的、简单的启动方式。
- **动态页面支持**: 默认使用 `Playwright` 来抓取页面，能够有效处理通过JavaScript动态加载内容的网站。
- **智能提取**: 利用 `newspaper3k` 库自动解析和提取文章标题。
- **配置简单**: 无需配置数据库，通过命令行参数即可指定抓取目标。

## 环境配置

### 1. 安装依赖

系统依赖于一些第三方库。建议您在一个干净的Python虚拟环境中安装它们。

```bash
pip install requests beautifulsoup4 newspaper3k playwright
```

### 2. 安装浏览器

Playwright 需要真实的浏览器来工作。运行以下命令，它会自动下载并安装所需的浏览器（如Chromium, Firefox, WebKit）。

```bash
playwright install
```

## 使用方法

本系统的所有操作都通过根目录下的 `web_spider_run.py` 脚本进行。

### 1. 基本用法 (使用默认目标)

直接运行脚本，它会抓取代码中预设的默认网站 (`https://www.cena.com.cn/`)。

```bash
python web_spider_run.py
```

### 2. 指定目标网站

通过 `--url` 参数，您可以指定任何您想抓取的网站。

```bash
python web_spider_run.py --url "http://www.xinhuanet.com/"
```

### 3. 查看所有选项

您可以使用 `-h` 或 `--help` 参数来查看所有可用的命令行选项及其说明。

```bash
python web_spider_run.py --help
```
这将显示您可以自定义的所有参数，如 `--url`, `--media-name`, 和 `--column-name`。

---

**工作流程简介**:
1. 启动 `web_spider_run.py`。
2. 脚本调用 `news_spider_quickly.py` 的主函数。
3. `Playwright` 启动一个无头浏览器，访问您指定网站的首页。
4. 从首页提取出所有指向站内其他页面的链接。
5. 遍历这些链接，使用 `newspaper3k` 和 `BeautifulSoup` 提取每篇文章的标题和正文。
6. 将结果打印到控制台。