# zhihu_spider_selenium
**Repository Path**: ZouJiu1/zhihu_spider_selenium
## Basic Information
- **Project Name**: zhihu_spider_selenium
- **Description**: 爬取知乎个人主页的想法、文篇和回答
- **Primary Language**: Python
- **License**: GPL-3.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No
## Statistics
- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-09-14
- **Last Updated**: 2025-09-14
## Categories & Tags
**Categories**: Uncategorized
**Tags**: None
## README
# 爬取知乎的内容
考虑到将写的内容爬取下来,保存起来的避免误删,算是个备份的,而且方便查找,阅读起来也更方便,使用起来也好很多
## 亮点
1、保存**回答**到**pdf**、**markdown**,并保存相应的图片、codes以及website,排版基本按照网页,**支持保存数学公式到markdown**,回答会保存提问和自己的回答
2、保存**article**到**pdf**、**markdown**,并保存相应的图片、codes以及website,排版基本按照网页,**支持保存数学公式到markdown**
3、保存**想法**到text并保存相应的图片,最后对所有text进行汇总到一个档案
## LOG
-----------20241224 add macos intel and macos m1 support
-----------20230729 使用beautifulsoup库来进行解析网页,使用起来更加稳定的而且排版更加贴近网页,之前是使用的selenium
-----------202306 上传
### 爬取到的想法展示
按照发布时间分目录存放,保存了图片以及文本文件
点击即可进入think目录查看的
2023-01-21 13:01

### 爬取到的article展示
点击即可进入article目录查看的
每篇article都附带了修改时间和IP属地
保存到Markdown格式的数学公式、codes和图片
泰勒公式推导方式
c++_set运算符重载


保存到PDF格式的,标题下面是网址


### 爬取到的回答展示
点击即可进入answer目录查看的
每篇回答也附带了修改时间和IP属地
保存到Markdown格式的数学公式、codes和图片
矩阵A正定,证A的逆矩阵和伴随矩阵也正定
Visual_Studio_Code_怎么编写运行_C、C++_程序


保存到PDF格式的,标题下面是网址


## 环境以及安装
**win10** **python**
1、点击下面这个网页,安装miniconda也就是安装python,下载好以后安装即可,在安装时需要加入到系统环境变量,勾选下图第二个框即可。
[https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-py310_23.3.1-0-Windows-x86_64.exe](https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-py310_23.3.1-0-Windows-x86_64.exe)
![]()
2、接着需要修改python安装的路径,将msedgedriver\\.condarc这个档案放到根目录`C:\Users\username`即可,另外再打开一个cmd或者PowerShell
运行`conda clean -i`输入`Y`即可,此时Python已经可以使用了
3、安装Python相关的调用库,另外再打开一个cmd或者PowerShell,运行
cd C:\Users\usrname\zhihu
pip install -r .\requirement.txt
## 使用
### 1、登录
运行以下内容,这一步是**手动**操作,需要人工输入账号和密码,然后点击登录就行,登录以后会自动保存好cookie,以后爬取时就不用重复登录了,保存的cookie在这个目录的**cookie**,产生的档案是**cookie_zhihu.pkl**
python crawler.py
### 2、每项单独爬取