# PythonSpider **Repository Path**: wmllm/python-spider ## Basic Information - **Project Name**: PythonSpider - **Description**: Python爬虫代码 - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2021-09-06 - **Last Updated**: 2021-09-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # PythonSpider #### 介绍 Python爬虫代码 #### 实验一 1. 写一个函数,func1(n),内部实现返回1~n中所有奇数的和,在主函数中键盘输入n,传递给函数接收并打印结果。建议输入输出时请给出相应的文字提示(提示:考查函数编写、主函数编写,if判断,输入输出函数) 2. 写一个函数func2(n),内部实现 1. 输出1~n中倒数第2个数 2. 逆向输出1~n,步长为4 3. 如当n=10,则输出结果为10,6,2(提示:考查列表切片) 3. 写一个函数func3(x, *args),内部实现判断并统计args中值大于x的元素个数并返回。在主函数中传递输入参数,接收并打印结果。(提示:考查可变长参数) 4. 写一个函数func4(x, **args),内部实现判断args(字典)中,值大于x的键和值保留,其余删除,直接在函数中打印更新后的args结果(提示:考查可变长参数,字典的传递,遍历,删除) 5. 编写一个模块tool.py,在其中编写一个函数func5,内部实现输出”老师好,我是某班某某某”,在1,2,3,4题编写的程序主函数中调用tool模块的func5方法,实现输出。 6. 安装requests库,运行9ku_requests.py,xinpiancha_requests.py,baiduimg_re.py,完成后自己尝试利用谷歌浏览器的开发者工具分析九酷网站和新片场,下载自己想要的音乐或视频。 #### 实验二 1. 请结合第一次访问九酷音乐等方法,找到百度首页logo的访问地址,利用requests库请求并保存图片 2. 请求豆瓣网**[http://www.douban.com,](https://www.douban.com%2C/)** 分别打印其响应状态码,请求的历史(如果历史不为空请思考为什么),请求的头部信息,最终请求的url(与要求访问的url对比),以及响应文本 3. 利用requests库访问**https://www.ip138.com/mobile.asp** 网站,输入指定手机号实现手机号码归属地查询。检查是否出现乱码问题,如有请解决。 4. 在浏览器访问http://exercise.kingname.info/exercise_login.html,安装上面的用户名密码提示进行登录,登录过程中进行抓包分析,利用requests库用代码完成登录请求,打印请求后的响应结果。 #### 实验三 1. 将代码和结果分别截图,匹配string中所有

标签中的文本(考查贪婪与惰性匹配,如何用findall和finditer提取信息)string = """

云是白色的

太阳是金色的

草是绿色的

花是红色的

梦是彩色的

""" 2. 将代码、结果截图 匹配string中所有的颜色"*色的."注意匹配英文句号(考查元字符转义)string = '''天是蓝色的.云是白色的.太阳是金色的.草是绿色的.花是红色的.梦是彩色的.大地是棕色的!''' 3. 将代码、结果截图分别用findall和finditer实现取出主语和对应的颜色,能灵活指定内容打印即可(考查分组,以及为分组其别名)string = '''天是蓝色的.云是白色的.太阳是金色的.草是绿色的.花是红色的.梦是彩色的.大地是棕色的!''' 4. 将代码、结果截图请输入一对标签,判断是否是一对匹配的标签,如输入

dff dfsf返回“不匹配”,输入

dfaf

返回“匹配”(考查分组引用)string = input('请输入一对标签:') 5. 将代码、结果截图匹配打印开始的序号匹配打印末尾的成绩(考查匹配边界字符^和$的使用)string = '''01 张三 10002 李四 9503 王五 98''' 6. 将代码、结果截图匹配出其中满足条件的邮箱(考查仅包含数字字母下划线@域名,域名可能是com或cn,用|连接,以及标签re.ASCII简写re.A的使用)string='''William_123@qq.com,李晓芙@126.com,Daniel_haha@163.com,李大明_2468@sina.cn,''' 7. 将代码、结果截图豆瓣电影排行榜,用requests库请求https://movie.douban.com/chart,在获得的html中提取电影连接,电影名,评分,评价人数 (综合考查利用正则表达式就进行网页解析,惰性匹配,re.S标志,分组提取等)