# Web_Crawler **Repository Path**: Jin-Stat-Group/Web_Crawler ## Basic Information - **Project Name**: Web_Crawler - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 2 - **Created**: 2021-03-31 - **Last Updated**: 2023-03-15 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 任务 ## 2020年9月25日 根据TeachersInfoDownload.py文件,周日(9月27日)晚上之前写出四个函数: 1. 第一个函数获取id和学院名称,根据37-49行 2. 第二个函数获取每个学院老师的网址(地址)得到学院+老师姓名+网址,可以以一个老师(蔡必卿)为例,获取他的9列信息,根据代码147-202行(姓名、个人主页、入职年份、职称、毕业院校、性别、学科、科研项目信息、论文发表信息)根据代码147-202行 3. 第三个函数获取学院所有老师的人数,包含学院名称、学院ID、学院人数,根据代码95-119行 4. 第四个函数获取学院每个老师的网址,根据代码121-145行 **上面的每个函数都要能够输出excel表格** # 项目目标 ## 2020年9月28日 1. 第一个函数:把第三四个函数合并,目标是得到所有老师六个变量的dataframe,姓名、 网址、性别、职称、硕导、博导 2. 第二个函数:根据得到的每个老师的网址,用url做参数,目标是得到**首页**下的姓 名、所在单位、学历、学位、学科、入职年份六个变量,以及**科学研究**下的科研项 目信息、论文发表信息两个变量 # 爬虫基础 1. 网络知识 2. 网页知识(html, css, javascript) 3. 正则表达式 4. 实现:Python 包 - urllib - Requests - BeautifulSoup4 - lxml - Selenium - pyspyder - Scrapy