# crawlBaiduWenku **Repository Path**: changeWeder/crawlBaiduWenku ## Basic Information - **Project Name**: crawlBaiduWenku - **Description**: 这可能是爬百度文库最全的项目了 - **Primary Language**: Unknown - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 2 - **Forks**: 1 - **Created**: 2020-04-11 - **Last Updated**: 2024-05-29 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 爬取百度文库 ## 需求是发明之母 **想下载文件又不想花钱和积分** > 如果你和我有一样的想法就往下看,只要几分钟就可以看完,从今以后可以白嫖99%的文库了 *** ## 使用方法 **1. 下载本文档(当然也可以选择不下载)** > git clone https://github.com/vict-cn/BaiduWenkuSpider **2. 安装依赖项(如果这些库你都有,也可以不安装)** > - 先用cmd切换到requirements.txt路径 > > - **pip install -r https://pypi.tuna.tsinghua.edu.cn/simple -r requirement.txt** **3. 下载PhantomJS(本文档自带)** > - 然后将其添加到环境变量,新手[请点击](https://github.com/vict-cn/crawlBaiduWenku/tree/master/example/PhantomJs) > > - 因为selenium高版本不支持PhantomJS了,所以我们这里选择安装低版本的selenium **4. 运行crawlBaiduWenku.py文件** > 此时你就会得到你想要的(大概率是可行的),要是爬取的不太理想,请继续阅读 *** ## 使用说明(若是不想看文字,可以直接看example文件夹内的实例,或者直接看各文件的作用) > - 爬**TXT**文件,爬取效果最好,可以选择可以使用**prase_to_txt.py**文件或者**parse_to_doc.py**文件,有时候后者比前者的效果要好,会生成一个**txt/doc**文件。[查看TXT实例](https://github.com/vict-cn/crawlBaiduWenku/tree/master/example/TXT) > - 爬**PPT**文件,会生成一个文件夹,里面有PPT的所有图片,要是想直接生成PPT,运行**pic_to_ppt.py**,想生成pdf,可以运行**pic_to_pdf**。[查看PPT实例](https://github.com/vict-cn/crawlBaiduWenku/tree/master/example/PPT) > - 爬**pdf**文件,速度较慢,会生成一个文件夹,里面有PDF的所有图片加上合起来的PDF文件(文件清晰度不是很高,这个有待提高)。[查看PDF实例 ](https://github.com/vict-cn/crawlBaiduWenku/tree/master/example/PDF) >- 爬**xls**文件,若是xls中有表格时(xls难道不就是表格文件?里面不都是表格?有时候还真不是),会生成一个文件内有表格的图片,里面都是表格图片(有时候图片会是分散的),要想生成xls文件,需要导入百度的识别表格API(此处留个链接)。若xls中全是文字的话,运行**Screenshot_to_pdf.py**文件,生成图片(速度有点慢),然后用**pic_to_txt.py**文件生成**txt**文件[。 查看XLS实例](https://github.com/vict-cn/crawlBaiduWenku/tree/master/example/XLS) > - 爬**doc**文件,大难题就是它,若是纯文本则可以直接运行**parse_to_doc.py**文件(效果还不错),若是图片少的时候,直接运行**parse_to_doc.py**文件生成doc文件,然后稍加修改,若是图片多的时候,可以考虑运行**Screenshot_to_pdf.py**文件,来生成截图。[查看DOC实例](https://github.com/vict-cn/crawlBaiduWenku/tree/master/example/DOC) *** ## 各文件的作用 1. [crawlBaiduWenku.py](https://github.com/vict-cn/crawlBaiduWenku/blob/master/crawlBaiduWenku.py) > - 可以爬取 TXT / PDF / DOC / XLS /PPT 文件,生成对应的文件。 2. [parse_to_txt.py](https://github.com/vict-cn/crawlBaiduWenku/blob/master/parse_to_txt.py) > - 可以爬取TXT / PDF / DOC / XLS 文件,生成txt文件。 > - **爬取TXT文件的效果最好。** 3. [parse_to_doc.py](https://github.com/vict-cn/crawlBaiduWenku/blob/master/parse_to_doc.py) > - 可以爬取TXT / PDF / DOC / XLS 文件,生成doc文件。 > - **爬取DOC与TXT文件的效果最好(有时候爬TXT简直不要太好。)** 4. [Screenshot_to_pdf.py](https://github.com/vict-cn/crawlBaiduWenku/blob/master/Screenshot_to_pdf.py) > - 可以爬 TXT / PDF / DOC / XLS /PPT 文件,生成对应的截图还有合起来的pdf文件。 > - 对所有文件有用,缺点是清晰度不是很好,但是能够看的清楚。 5. [pic_to_pdf.py](https://github.com/vict-cn/crawlBaiduWenku/blob/master/pic_to_pdf.py) > - 把文件夹内的图片转化为pdf文件。 6. [pic_to_xls.py](https://github.com/vict-cn/crawlBaiduWenku/blob/master/pic_to_xls.py) > - 把文件夹内的表格转化为xls文件。需要[baidu-aip](https://github.com/vict-cn/crawlBaiduWenku/tree/master/example/baidu-aip) 7. [parse_to_pic.py](https://github.com/vict-cn/crawlBaiduWenku/blob/master/parse_to_pic.py) >- 获得每个页面的所有图片(有的文档可能解析不出来)。 > 8. [pic_to_txt.py](https://github.com/vict-cn/crawlBaiduWenku/blob/master/pic_to_txt.py) >- 把图片中的文字转化到txt中(含位置),需要[baidu-aip](https://github.com/vict-cn/crawlBaiduWenku/tree/master/example/baidu-aip) 9. [pic_to_ppt.py](https://github.com/vict-cn/crawlBaiduWenku/blob/master/pic_to_ppt.py) > - 生成ppt文件,包含文件夹内的所有图片(默认为一个图片覆盖一个幻灯片) *** ## 声明 **除非选择下载文件,否则很难得到与原来一模一样的文件,而爬取方法没有定式,比如爬TXT并非一定要用parse_to_txt.py,还有大把方法可以使用。