# 陆秋婷(新) **Repository Path**: web-crawler-course/lu-qiuting---new ## Basic Information - **Project Name**: 陆秋婷(新) - **Description**: No description available - **Primary Language**: Python - **License**: MulanPSL-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 2 - **Created**: 2021-11-22 - **Last Updated**: 2021-12-17 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ### 陆秋婷(新) #### 介绍 网络爬虫课程 网络爬虫,通过一定的规则策略,自动抓取、下载互联网上网页,在按照某些规则算法对这些网页进行数据抽取,形成所需要的数据集。网络爬虫的应用领域很多,如搜索引擎、数据采集、广告过滤、大数据分析等。 爬虫的工作原理可以很简单地解释为先找到目标信息网,然后页面抓取模块,接着页面分析模块,最后数据存储模块 网络爬虫的流程:爬取--->解析--->存储 具体如下: 1、发起请求 使用http库向目标站点发起请求,即发送一个Request Request包含:请求头、请求体等 请求库:requests,selenium 2、获取响应内容 如果服务器能正常响应,则会得到一个Response Response包含:html,json,图片,视频等 3、解析内容 解析html数据:正则表达式,第三方解析库如lxml,Beautifulsoup,pyquery等 解析json数据:json模块 解析二进制数据:以b的方式写入文件 4、保存数据 数据库:MySQL,Mongodb #### 软件架构 软件架构说明 爬虫常用框架:spyder 作为Python基本知识,本章首先介绍Python及其发行版Anaconda的安装与启动、Spyder开发工具的使用和Python新库的安装方法;其次对Python基本语法和数据结构进行了概括介绍;最后介绍了Python在金融大数据领域中的应用情况。这里推荐Python的发行版Anaconda,它集成了众多Python常用包,并自带简单易学且界面友好的集成开发环境Spyder。 #### 安装教程 1. Anaconda安装包可以从官网或者清华镜像站点中下载。下面介绍如何从清华镜像站点中获取安装包并进行安装的具体过程。首先登录清华镜像站点网址,如图1 所示。(Anaconda有众多版本,也支持常见的操作系统。本书选择Anaconda3-5.0.1-Windows-x86.exe这个版本,32位操作系统。) ![图1](https://images.gitee.com/uploads/images/2021/1115/222356_16fde45e_9768813.png "屏幕截图.png") 2. 对下载成功的安装包进行安装。双击下载成功的安装包,在弹出安装向导界面中单击Next按钮,如图2所示。 ![图2](https://images.gitee.com/uploads/images/2021/1115/222759_d07c073b_9768813.png "屏幕截图.png") ![图3](https://images.gitee.com/uploads/images/2021/1115/225844_50497985_9768813.png "屏幕截图.png") ![图4](https://images.gitee.com/uploads/images/2021/1115/225913_ce18ceb3_9768813.png "屏幕截图.png") 3. 在该步骤中有两个选项,安装向导默认为第二个选项,即向Anaconda系统中安装Python的版本号,图3中为3.6这个版本。第一个选项为可选项,即向安装的计算机系统中添加Anaconda环境变量,也建议读者选择该选项。 ![图5](https://images.gitee.com/uploads/images/2021/1115/222830_1dbffb9a_9768813.png "屏幕截图.png") 4.设置好这两个选项后,单击“Intsall”即可进入安装进程,如图4所示 ![图6](https://images.gitee.com/uploads/images/2021/1115/223150_b8e95d3c_9768813.png "屏幕截图.png") 5.安装完成后,可以在电脑开始菜单栏中查看,如图5所示。 ![图7](https://images.gitee.com/uploads/images/2021/1115/223311_fb71c6a8_9768813.png "屏幕截图.png") #### 使用说明 经常使用的设置: 1. 界面的设置,(我经常使用Matlab开发界面进行布局) ![输入图片说明](https://images.gitee.com/uploads/images/2021/1115/223936_16e53a4f_9768813.png "屏幕截图.png") 2. 文件设置,文件路径设置框(复制文件夹的路径),并按下Enter键,即可设置完成 ![输入图片说明](https://images.gitee.com/uploads/images/2021/1115/224126_5681f711_9768813.png "屏幕截图.png") 3. 新建一个file文件 ![输入图片说明](https://images.gitee.com/uploads/images/2021/1115/224435_56caeeed_9768813.png "屏幕截图.png") 4.字体大小设置 ![输入图片说明](https://images.gitee.com/uploads/images/2021/1115/232233_5024d54f_9768813.png "屏幕截图.png") 5.其他使用操作 5.1.菜单栏(Menu bar):显示可用于操纵Spyder各项功能的不同选项。 5.2.工具栏(Tools bar):通过单击图标可快速执行Spyder中最常用的操作,将鼠标悬停在某个图标上可以获取相应功能说明。 5.3.路径窗口(Python path):显示文件目前所处路径,通过其下拉菜单和后面的两个图标可以很方便地进行文件路径的切换。 5.4.文件查看器(File explorer):可以方便地查看当前文件夹下的文件。 5.5.代码编辑区(Editor):编写Python代码的窗口,右边的行号区域显示代码所在行。 5.6.变量查看器(Variable explorer):类似MATLAB的工作空间,可以方便地查看变量。 5.7.控制台(IPython console):类似MATLAB中的命令窗格,可以一行行地交互。 ![输入图片说明](https://images.gitee.com/uploads/images/2021/1115/231656_6900d5b9_9768813.png "屏幕截图.png") #### 参与贡献 1. Fork 本仓库 2. 新建 Feat_xxx 分支 3. 提交代码 4. 新建 Pull Request #### 特技 1. 使用 Readme\_XXX.md 来支持不同的语言,例如 Readme\_en.md, Readme\_zh.md 2. Gitee 官方博客 [blog.gitee.com](https://blog.gitee.com) 3. 你可以 [https://gitee.com/explore](https://gitee.com/explore) 这个地址来了解 Gitee 上的优秀开源项目 4. [GVP](https://gitee.com/gvp)