# WebCrawler **Repository Path**: sethnie/WebCrawler ## Basic Information - **Project Name**: WebCrawler - **Description**: 收录爬虫项目 - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2021-02-18 - **Last Updated**: 2021-02-26 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # WebCrawler # 介绍 收录爬虫项目 1. [研招网程序查询爬虫](https://gitee.com/sethnie/WebCrawler/tree/master/GetResultsOfPostgraduateEntranceExamination) # 相关法律法规介绍 ## 非法获取计算机系统数据罪 根据《中华人民共和国刑法》第二百八十五条规定,非法获取计算机信息系统数据、非法控制计算机信息系统罪,是指违反国家规定,侵入国家事务、国防建设、尖端科学技术领域以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据,情节严重的行为。刑法第285条第2款明确规定,犯本罪的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。 ## 侵犯商业秘密罪 《反不正当竞争法》第九条,以不正当手段获取他人商业秘密的行为即已经构成侵犯商业秘密。而后续如果进一步利用,或者公开该等信息,则构成对他人商业秘密的披露和使用,同样构成对权利人的商业秘密的侵犯。 ## 非法侵入计算机信息系统罪 《刑法》第二百八十六条还规定,违反国家规定,对计算机信息系统功能进行删除、修改、增加、干扰,造成计算机信息系统不能正常运行,后果严重的,构成犯罪,处五年以下有期徒刑或者拘役;后果特别严重的,处五年以上有期徒刑。而违反国家规定,对计算机信息系统中存储、处理或者传输的数据和应用程序进行删除、修改、增加的操作,后果严重的,也构成犯罪,依照前款的规定处罚。 ## 网络安全法 《网络安全法》第四十四条 任何个人和组织不得窃取或者以其他非法方式获取个人信息。因此,如果爬虫在未经用户同意的情况下大量抓取用户的个人信息,则有可能构成非法收集个人信息的违法行为。 ## 民法总则 《民法总则》第111条任何组织和个人需要获取他人个人信息的,应当依法取得并确保信息安全。不得非法收集、使用、加工、传输他人个人信息 ## 侵犯公民个人信息罪 《刑法》修正案(九)中将刑法第二百五十三条进行了修订,明确规定违反国家有关规定,向他人出售或者提供公民个人信息,情节严重的,构成犯罪;在未经用户许可的情况下,非法获取用户的个人信息,情节严重的也将构成“侵犯公民个人信息罪”。 根据《最高人民法院 最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》第五条规定,对“情节严重”的解释,(1)非法获取、出售或者提供行踪轨迹信息、通信内容、征信信息、财产信息五十条以上的;(2)非法获取、出售或者提供住宿信息、通信记录、健康生理信息、交易信息等其他可能影响人身、财产安全的公民个人信息五百条以上的;(3)非法获取、出售或者提供第三项、第四项规定以外的公民个人信息五千条以上的便构成“侵犯公民个人信息罪”所要求的“情节严重”。 # [相关判例](https://zhuanlan.zhihu.com/p/93351024) # 软件目录 # 安装教程 - selenium 相关 1. 安装 selenium Win : `pip install selenium` 2. 安装 webdriver 各大浏览器webdriver地址可参见:https://docs.seleniumhq.org/download/ Firefox:https://github.com/mozilla/geckodriver/releases/ Chrome:https://sites.google.com/a/chromium.org/chromedriver/ 或者 http://chromedriver.storage.googleapis.com/index.html IE:http://selenium-release.storage.googleapis.com/index.html 注:webdriver需要和对应的浏览器版本以及selenium版本对应 3. webdriver安装路径 Win:复制webdriver到Python安装目录下 Mac:复制webdriver到/usr/local/bin目录下 4. 测试 - 启动Chrome浏览器: ```python from selenium import webdriver browser = webdriver.Chrome() browser.get('http://www.baidu.com/') ``` - 启动Firefox浏览器: ```python from selenium import webdriver browser = webdriver.Firefox() browser.get('http://www.baidu.com/') ``` - 启动IE浏览器: ```python from selenium import webdriver browser = webdriver.Ie() browser.get('http://www.baidu.com/') ``` - 打包exe `pyinstaller -F xxx.py` - 验证码识别方案 # 使用说明 1. xxxx 2. xxxx 3. xxxx # 参与贡献 1. Fork 本仓库 2. 新建 Feat_xxx 分支 3. 提交代码 4. 新建 Pull Request # 特技 1. 使用 Readme\_XXX.md 来支持不同的语言,例如 Readme\_en.md, Readme\_zh.md 2. Gitee 官方博客 [blog.gitee.com](https://blog.gitee.com) 3. 你可以 [https://gitee.com/explore](https://gitee.com/explore) 这个地址来了解 Gitee 上的优秀开源项目 4. [GVP](https://gitee.com/gvp) 全称是 Gitee 最有价值开源项目,是综合评定出的优秀开源项目 5. Gitee 官方提供的使用手册 [https://gitee.com/help](https://gitee.com/help) 6. Gitee 封面人物是一档用来展示 Gitee 会员风采的栏目 [https://gitee.com/gitee-stars/](https://gitee.com/gitee-stars/)