# normal_spider **Repository Path**: maergaiyun/normal_spider ## Basic Information - **Project Name**: normal_spider - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-07-06 - **Last Updated**: 2025-07-06 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 快速新闻爬虫 - 使用说明 这是一个轻量级、快速的新闻爬虫,旨在从指定的新闻网站首页抓取最新的文章链接,并提取每篇文章的标题和正文。 ## 核心功能 - **单一入口**: 通过 `web_spider_run.py` 提供唯一的、简单的启动方式。 - **动态页面支持**: 默认使用 `Playwright` 来抓取页面,能够有效处理通过JavaScript动态加载内容的网站。 - **智能提取**: 利用 `newspaper3k` 库自动解析和提取文章标题。 - **配置简单**: 无需配置数据库,通过命令行参数即可指定抓取目标。 ## 环境配置 ### 1. 安装依赖 系统依赖于一些第三方库。建议您在一个干净的Python虚拟环境中安装它们。 ```bash pip install requests beautifulsoup4 newspaper3k playwright ``` ### 2. 安装浏览器 Playwright 需要真实的浏览器来工作。运行以下命令,它会自动下载并安装所需的浏览器(如Chromium, Firefox, WebKit)。 ```bash playwright install ``` ## 使用方法 本系统的所有操作都通过根目录下的 `web_spider_run.py` 脚本进行。 ### 1. 基本用法 (使用默认目标) 直接运行脚本,它会抓取代码中预设的默认网站 (`https://www.cena.com.cn/`)。 ```bash python web_spider_run.py ``` ### 2. 指定目标网站 通过 `--url` 参数,您可以指定任何您想抓取的网站。 ```bash python web_spider_run.py --url "http://www.xinhuanet.com/" ``` ### 3. 查看所有选项 您可以使用 `-h` 或 `--help` 参数来查看所有可用的命令行选项及其说明。 ```bash python web_spider_run.py --help ``` 这将显示您可以自定义的所有参数,如 `--url`, `--media-name`, 和 `--column-name`。 --- **工作流程简介**: 1. 启动 `web_spider_run.py`。 2. 脚本调用 `news_spider_quickly.py` 的主函数。 3. `Playwright` 启动一个无头浏览器,访问您指定网站的首页。 4. 从首页提取出所有指向站内其他页面的链接。 5. 遍历这些链接,使用 `newspaper3k` 和 `BeautifulSoup` 提取每篇文章的标题和正文。 6. 将结果打印到控制台。