# Web_Crawler

**Repository Path**: Jin-Stat-Group/Web_Crawler

## Basic Information

- **Project Name**: Web_Crawler
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 1
- **Forks**: 2
- **Created**: 2021-03-31
- **Last Updated**: 2023-03-15

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 任务
## 2020年9月25日
根据TeachersInfoDownload.py文件，周日（9月27日）晚上之前写出四个函数：

1. 第一个函数获取id和学院名称，根据37-49行

2. 第二个函数获取每个学院老师的网址（地址）得到学院+老师姓名+网址，可以以一个老师（蔡必卿）为例，获取他的9列信息，根据代码147-202行（姓名、个人主页、入职年份、职称、毕业院校、性别、学科、科研项目信息、论文发表信息）根据代码147-202行
   
3. 第三个函数获取学院所有老师的人数，包含学院名称、学院ID、学院人数，根据代码95-119行


4. 第四个函数获取学院每个老师的网址，根据代码121-145行
   
**上面的每个函数都要能够输出excel表格**

# 项目目标

## 2020年9月28日

1. 第一个函数：把第三四个函数合并，目标是得到所有老师六个变量的dataframe，姓名、
   网址、性别、职称、硕导、博导
2. 第二个函数：根据得到的每个老师的网址，用url做参数，目标是得到**首页**下的姓
   名、所在单位、学历、学位、学科、入职年份六个变量，以及**科学研究**下的科研项
   目信息、论文发表信息两个变量
   

# 爬虫基础
1. 网络知识
2. 网页知识(html, css, javascript)
3. 正则表达式
4. 实现：Python 包
   - urllib
   - Requests
   - BeautifulSoup4
   - lxml
   - Selenium
   - pyspyder
   - Scrapy