# SimpleGrab **Repository Path**: xiaojguo_private/simple-grab ## Basic Information - **Project Name**: SimpleGrab - **Description**: SimpleGrab - 超简易网页抓取工具(高度自定义),一款基于Selenium开发的爬虫框架,主要用于批量抓取网页数据导出为excel,可在项目内部自定义反爬处理机制,支持模拟滑动、点击、随机UA、延迟加载判断等,在项目内可自定义(JSON)抓取规则,可配置加载注入JS等... - **Primary Language**: Python - **License**: MulanPSL-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 1 - **Created**: 2024-11-25 - **Last Updated**: 2024-11-25 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # SimpleGrab ### 📋介绍 SimpleGrab - 超简易网页抓取工具(高度自定义) 随着网络信息的爆炸式增长,网页内容抓取与数据导出成为了数据分析、信息整合等领域的常见需求。为满足用户通过简单配置即可实现网页内容抓取并导入Excel的需求,我们开发了SimpleGrab项目。该项目结合了Selenium自动化测试框架与Excel导出主流框架,旨在为用户提供一种高效、便捷的网页内容抓取与数据导出解决方案。 ### 💎特点 1. **简单易用:** 通过简单的配置,即可实现网页内容的抓取,无需编写复杂的代码。 2. **功能强大:** 结合Selenium框架,支持多种浏览器自动化操作,适应各种网页结构。 3. **数据导出灵活:** 支持将抓取到的数据导出为Excel格式,方便后续的数据分析与处理。 4. **扩展性强:** 允许用户根据自身需求定制抓取规则与导出方式,实现个性化需求。 ### 🚀开发技术栈 SimpleGrab项目利用Python的强大生态,依赖于Selenium自动测试的工具、pandas等工具,利用浏览器外部注入JS的方式来对数据进行分析导出 项目,拥有强大且完美的自定义配置 ,在config.json配置文件中可自定义抓取页数、搜索关键字、导出等自定义项,结合Python的强大生态体系,可以让其使用更加方便、快捷 ### 🔒依赖说明 **Selenium** - 是一个自动化测试工具,主要用于Web应用程序的测试。它允许模拟用户在浏览器中的操作,如点击、输入、导航等。 **Fake_useragent** - 用于生成随机的用户代理(User Agent)字符串 **Pandas** - 一个强大的数据分析库,用于数据清洗、处理、分析和可视化。 **openpyxl** - 专门用于读写 Excel 2010 xlsx/xlsm/xltx/xltm 文件格式。它允许你使用 Python 代码来创建、修改和保存 Excel 文件,而不需要安装 Microsoft Excel 或其他类似的软件。 使用项目时需要安装 Selenium 的浏览器驱动(具体可以去 https://googlechromelabs.github.io/chrome-for-testing/#stable) 下载合适的谷歌浏览器以及相应的驱动 ### 📦使用场景 SimpleGrab适用于以下场景: **数据抓取:** 从特定网页抓取数据,如商品价格、新闻资讯等。 **数据分析:** 将抓取到的数据进行清洗、整理,为后续的数据分析提供数据源。 **信息整合:** 将多个网页的信息整合到一个Excel文件中,方便查阅与比对。 ### 🦜使用教程 * **说明:项目所需环境>=Python3.6** * **必须:浏览器驱动(见上文依赖说明)** 1. 安装依赖 ```pip install -r depends.txt -i https://pypi.tuna.tsinghua.edu.cn/simple/ ``` 2. 修改配置文件 /config/config.json 3. 运行main.py文件 ### 🌈 未来 随着Web技术的不断更新与发展,我们将持续优化SimpleGrab的性能与功能,以适应更多复杂的网页抓取需求。同时,我们也将关注用户反馈,不断完善项目,为用户提供更加优质的体验。