Watch Star Fork

liinux / ghost-loginJava

加入码云
与超过 300 万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
专门用来解决爬虫采集相关网站数据时模拟自动登录,验证码自动识别的问题;欢迎加入一起开发完善。 https://github.com/tigerxue
liinux 最后提交于 更新 README_zh.md
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README_zh.md 4.12 KB

Ghost-login


  • 此处所说的模拟登录不是指利用网站本身提供的认证API接口进行登录,主要是通过分析前端代码,摸清登录认证原理、核心加密代码,然后程序模拟,来实现自动登录网站的过程;
  • 专门用来解决爬虫采集相关网站数据时模拟登录,验证码自动识别的问题;欢迎加入一起开发完善。
  • Specifically designed to solve the crawler when collecting Internet web data who need to login the web-site by useing some Simulated ways. The Ghost-login will verificate the captcha code automatically; Welcome to join in together to develop and improve it.

主要基于以下第三方lib及技术

  1. HttpComponents 4.5.x HTTP请求以及响应
  2. Selenium 2.53.x 模拟自动登录
  3. Bouncycastle 加密解密
  4. Tesseract-ocr 验证码Tesseract识别
  5. Captcha-Recognize验证码LibSVM识别

模拟登录一些常见的网站Done

Will todo list

  1. 重构代码,增加可扩展性
  2. 增加简单验证码识别模块;
  3. 重新组织文件结构和代码风格;
  4. 增加可扩展性,方便添加新的功能;

tips of pull request

欢迎大家一起来 pull request

  1. 兼容JDK1.8版本;
  2. 自动模拟登录新的网;
  3. 改进bug, 完善代码;
  4. 增加新的模拟自动登录的方法;

something to add

  1. 网站的前端更新、验证、变化较快,若不能用了请及时告知,我会定期修改完善,同时热烈欢迎有兴趣的加入我们。
  2. 接下来最重要的是重构代码,让大家可以更容易的做出一些满足个性需求的功能。
  3. 如果你觉得某个网站的登录很有代表性,欢迎在 issue 中提出,如果你感觉网站的模拟自动登录很有意思,加入我们吧。
  4. 验证码的识别模块还有待完善...

除责申明

  1. 本开源项目仅为技术交流此一目的,严禁用于其他任何商业、违法犯罪、恶意攻击等行为;
  2. 若第三者用此项目侵犯相关网站权益,一切责任自负;
  3. 若本项目侵犯相关网站、个人,组织机构权益,请及时联系;

交流讨论

本项目会不断更新,欢迎提交有难度的登录网站;

  1. 开源网络爬虫QQ交流群:322937592 网络爬虫&数据分析
  2. Email address: liinux # qq.com
  3. 微信号:WebCrawlerAIDA

联系作者

欢迎加入QQ交流群:

加QQ群二维码

项目点评 ( 7 )

你可以在登录后,发表评论

搜索帮助