# SiteCopy **Repository Path**: personal_learn/SiteCopy ## Basic Information - **Project Name**: SiteCopy - **Description**: sitecopy is a tool that facilitates personal website backup and network data collection - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 2 - **Created**: 2025-09-04 - **Last Updated**: 2025-09-04 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # SiteCopy sitecopy is a tool that facilitates personal website backup and network data collection ## 介绍 网站复制,也可称为网站备份。是通过工具将网页上的内容全部保存下来。当然不仅仅只是保存了一个html页面,而是将网页源码内所包含的css、js和静态文件等全部保存,以在本地也可以完整的浏览整个网站。网络上也有一些类似的工具,但使用起来并不理想。于是自己写一个Python脚本,方便个人对网站的备份,也方便一些网络资料的收集。 - 工具名称: SiteCopy - 作者: Threezh1 - 博客: http://www.threezh1.com/ 关于SiteCopy的开发记录:[论如何优雅的复制一个网站的所有页面](https://xz.aliyun.com/t/6941) 对互联网任何网站的复制需在取得授权后方可进行,若使用者因此做出危害网络安全的行为后果自负,与作者无关,特此声明。 ## 使用 Python版本: 3.7 安装依赖库: `pip3 install -r requirements.txt` - 复制单个页面 `python sitecopy.py -u "http://www.threezh1.com"` - 复制整个网站 `python sitecopy.py -u "http://www.threezh1.com" -e` - 复制多个页面 `python sitecopy.py -s "site.txt"` - 复制多个网站 `python sitecopy.py -s "site.txt" -e` 指定链接爬取的循环次数: -d (默认为200) 指定线程数:-e (默认为30) 例子: 爬取 www.threezh1.com 网站所有页面,指定链接爬取的循环次数为200,指定线程数为30 `python sitecopy.py -u "http://www.threezh1.com" -e -d 200 -t 30` ## 复制网站测试 - 复制自己的博客:https://threezh1.com 花费时间:2分钟48秒 运行截图: ![pic_11.jpg](https://s2.ax1x.com/2019/12/12/QcnOp9.jpg) 目录截图: ![pic_07.jpg](https://i.loli.net/2019/12/12/MRmv4licZCb5OzD.jpg) 页面截图: ![pic_06.jpg](https://i.loli.net/2019/12/12/4ydL371zCEiVJnZ.jpg) ## 已知存在的问题 1. 目录替换时在有些情况下会进行多次替换导致页面无法正常显示 2. 网站或图床有防爬措施时无法正常保存 3. 网络问题导致脚本无法正常执行 非常希望能够和师傅们共同交流对这些问题的解决方式,我的邮箱:makefoxm@qq.com