一款简单高性能的网络爬虫
软件架构说明
universal-web-crawler
├── bin
│ ├── WebCrawler 爬虫
│ └── WebCrawler.cfg 配置文件
├── docs 文档
│ ├── 流程图1.jpg
│ └── 流程图2.jpg
├── LICENSE
├── plugins 插件
│ ├── DomainLimit.cpp 域名限制
│ ├── DomainLimit.h
│ ├── HeaderFilter.cpp 头部过滤器
│ ├── HeaderFilter.h
│ ├── HeaderFilter.mak
│ ├── MaxDepth.cpp 递归深度
│ ├── MaxDepth.h
│ ├── MaxDepth.mak
│ ├── mkall make工程
│ ├── SaveHTMLToFile.cpp 存储html文件
│ ├── SaveHTMLToFile.h
│ ├── SaveHTMLToFile.mak
│ ├── SaveImageToFile.cpp 存储图片
│ ├── SaveImageToFile.h
│ └── SaveImageToFile.mak
├── README.md
└── src
├── BloomFilter.cpp 布隆过滤器
├── BloomFilter.h
├── Configurator.cpp 配置器
├── Configurator.h
├── DnsThread.cpp dns解析线程类
├── DnsThread.h
├── Hash.cpp 哈希类
├── Hash.h
├── Http.h
├── Log.cpp 日志类
├── Log.h
├── Main.cpp main文件
├── Makefile make工程文件
├── MultiIo.cpp 多路复用器
├── MultiIo.h
├── Plugin.h
├── PluginMngr.cpp 插件管理器
├── PluginMngr.h
├── Precompile.h
├── RecvThread.cpp 接收线程
├── RecvThread.h
├── SendThread.cpp 发送线程
├── SendThread.h
├── Socket.cpp 套接字类
├── Socket.h
├── StrKit.cpp 字符串处理工具
├── StrKit.h
├── Thread.cpp 抽象线程类
├── Thread.h
├── Url.cpp url类
├── UrlFilter.h
├── Url.h
├── UrlQueues.cpp url队列
├── UrlQueues.h
├── WebCrawler.cpp 爬虫类
└── WebCrawler.h
编译命令
启动命令
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。