# blueoco spider **Repository Path**: dhamma/blueoco-spider ## Basic Information - **Project Name**: blueoco spider - **Description**: https://www.blueoco.com/ 爬虫 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2024-07-29 - **Last Updated**: 2024-07-29 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # BlueocoSpider ## 项目简介 BlueocoSpider 是一个基于 PySide6 的 GUI 爬虫程序,用于抓取指定网站的商品数据。程序能够抓取商品的图片、描述和价格,并将数据保存为 JSON 或 CSV 格式。 ### 环境 1. Python 3.11 2. 必要的 Python 包 ``` pip install PySide6 requests lxml ``` ### 运行程序 1. 克隆项目代码到本地 ``` git clone <本仓库地址> cd blueoco ``` 2. 运行程序 ``` python main.py ``` ### 打包程序 如果你希望将程序打包成单独的可执行文件,请按照以下步骤操作: 1. 安装 `pyinstaller` ``` pip install pyinstaller ``` 2. 生成并编辑 `.spec` 文件 ``` pyinstaller --name BlueocoSpider --onefile --windowed --add-data "ui/Blueoco_rc.py;ui" --add-data "ui/Logo.svg;ui" --icon=ui/Logo.ico main.py ``` 3. 使用 `.spec` 文件打包程序 ``` pyinstaller BlueocoSpider.spec ``` ## 项目结构说明 - `main.py`: 程序入口文件,包含 GUI 界面的启动和配置。 - `serve.py`: 包含 `ProductSpider` 类,负责爬取指定网站的商品数据。 - ``` ui/ ``` : 包含 UI 设计文件及资源文件。 - `Blueoco.ui`: 使用 Qt Designer 设计的 UI 文件。 - `Blueoco.py`: 由 `pyuic5` 生成的 Python 文件,包含 UI 组件。 - `Blueoco.qrc`: 资源文件。 - `Blueoco_rc.py`: 由 `pyrcc5` 生成的 Python 资源文件。 - `Logo.svg`: 图标文件。 - `BlueocoSpider.spec`: `pyinstaller` 的配置文件,用于打包程序。 ## 使用说明 1. 在程序界面中输入基础 URL,并设置要抓取的商品数量。 2. 选择要提取的数据类型(图片、描述、价格)。 3. 选择保存格式(JSON 或 CSV 或 xlsx)。 4. 点击“开始”按钮,程序将开始爬取数据并在日志窗口中显示进度。 5. 数据抓取完成后,结果将保存在程序目录下,文件名根据 URL 自动生成。 ## 注意事项 1. 请确保输入的 URL 格式正确,否则可能导致程序无法正常抓取数据。 2. 如果在运行过程中出现问题,请查看日志窗口中的错误信息,以便进行调试。 ## 许可证 此项目遵循 MIT 许可证开源。