34 Star 301 Fork 119

Vanishi / DS

Create your Gitee Account
Explore and code with more than 12 million developers,Free private repositories !:)
Sign up
Clone or Download
contribute
Sync branch
Cancel
Notice: Creating folder will generate an empty file .keep, because not support in Git
Loading...
README
MIT

DS

软件介绍

  • 这是一个Qt开发的可以替代爬虫的网页数据采集软件,它最重要的特点就是,降低了采集网页数据的门槛,由至少掌握一门编程语言降低到只要会操作电脑即可。

关于DS

  • 2023.3.18:DS 来自 Data Spider ,几年前写过一个类似的工具软件,但当时受限于个人水平,那个软件在逻辑上存在许多bug,所以一直都搁置了。 直到几个月前,我决定重新完善一下,因为那个软件虽然存在很多bug,但思路非常好,搁置着太可惜,之后我重新复习了一下Qt,又经历挺长一段时间,终于在最近完成一个可用的版本。
软件主界面.png

软件的使用教程

安装开发环境需要注意的几点

  • 这个软件内嵌了一个谷歌浏览器,是基于Qt自带的QWebView控件实现的, Qt中只有MSVC编译器才能使用这个控件,MinGW的编译器是不可以使用的, 所以大家想要运行这个软件,一定要确保自己的电脑安装了MSVC系列的编译器。
  • 强烈建议大家先安装VS再安装Qt,如果先安装Qt再安装VS,需要手动配置编译器,很麻烦。
  • 如何安装MSVC系列的编译器?
  • 在安装Qt之前,首先安装Visual Studio,这样在安装Qt时才能够勾选MSVC,并正常安装。
  • 作者尝试过的Qt与MSVC编译器的可用组合
  • Qt5.14.2 + VS2019 和 VS2017
  • Qt5.15.2 + VS2019
  • Qt6.4.3 + VS2019
  • Qt6.6 + VS2019
  • Qt6.7 + VS2019

版本历史

v1.9

  • 发布时间 2024.04.09
  • (1)兼容Qt6.7
  • (2)chromium内核升级至V122.0.6261.128,提高渲染和采集性能
V1.8

发布时间:2023.8.26
更新内容:
(1)升级内置浏览器内核版本。
(2)优化执行器的执行逻辑。
(3)新增导出csv格式的数据(对于有些用户的电脑无法导出excel,可以使用csv)。
夸克网盘「DS采集器公开版版本发布记录」 链接:https://pan.quark.cn/s/b6972753f8d2 提取码:ALPw
win10/win11 DS.v1.8.x64.2023.08.26.exe
win7/win8   暂未编译,可自行编译
mac/linux   暂未编译,可自行编译


V1.7
发布时间:2023.4.16
更新内容:
(1)内置浏览器支持系统VPN。
(2)内置浏览器支持数据缓存。
(3)优化部分系统崩溃问题。
(4)优化数据导出功能。
夸克网盘「DS采集器公开版版本发布记录」 链接:https://pan.quark.cn/s/b6972753f8d2 提取码:ALPw
win10/win11 DS.v1.7.x64.2023.04.16.exe
win7/win8   暂未编译,可自行编译
mac/linux   暂未编译,可自行编译


V1.6
发布时间:2023.4.13
更新内容:
(1)优化下载文件功能。
(2)优化日志记录和清理功能。
(3)优化崩溃问题。
夸克网盘「DS采集器公开版版本发布记录」 链接:https://pan.quark.cn/s/b6972753f8d2 提取码:ALPw
win10/win11 DS.v1.6.x64.2023.04.13.exe
win7/win8   DS.v1.6.x64.win7.win8.2023.04.13.zip
mac/linux   暂未编译,可自行编译


V1.5
发布时间:2023.4.8
更新内容:
(1)新增图片下载功能。
(2)优化程序代码结构,提升性能。
(3)修复采集执行器执行时的页数显示问题。
夸克网盘「DS采集器公开版版本发布记录」 链接:https://pan.quark.cn/s/b6972753f8d2 提取码:ALPw
win10/win11 DS.v1.5.x64.2023.04.08.exe
win7/win8   暂未编译,可自行编译
mac/linux   暂未编译,可自行编译


V1.4
发布时间:2023.4.1
更新内容:
(1)新新增定时启动任务的功能。
(2)优化任务执行时的回调机制。
(3)修复导入任务无法更新的bug。
夸克网盘「DS采集器公开版版本发布记录」 链接:https://pan.quark.cn/s/b6972753f8d2 提取码:ALPw
win10/win11 DS.v1.4.x64.2023.04.01.exe
win7/win8   暂未编译,可自行编译
mac/linux   暂未编译,可自行编译


V1.3
发布时间:2023.3.26
更新内容:
(1)兼容Qt6.4.3,内置浏览器内核更新至最新,预计性能提升20%。
(2)优修复了网络请求可能导致的崩溃。
(3)优化execl数据的导出。
夸克网盘「DS采集器公开版版本发布记录」 链接:https://pan.quark.cn/s/b6972753f8d2 提取码:ALPw
win10/win11 DS.v1.3.x64.2023.03.26.exe
win7/win8   暂未编译,可自行编译
mac/linux   暂未编译,可自行编译


V1.2
发布时间:2023.3.22
更新内容:
1)修复了删除任务的bug。
2)关闭了内置浏览器的调试,提升性能。
3)引入日志库。
4)兼容高分辨率屏幕。
5)获取admin权限,解决部分系统盘无法写入任务的问题。
夸克网盘「DS采集器公开版版本发布记录」 链接:https://pan.quark.cn/s/b6972753f8d2 提取码:ALPw
win10/win11/win7/win8 DS.v1.2.x64.2023.03.22.exe
mac/linux   暂未编译,可自行编译


V1.1
发布时间:2023.3.21
更新内容:
1)修复了删除任务的bug。
2)关闭了内置浏览器的调试,提升性能。
夸克网盘「DS采集器公开版版本发布记录」 链接:https://pan.quark.cn/s/b6972753f8d2 提取码:ALPw
win10/win11/win7/win8 DS.v1.1.x64.2023.03.21.exe
mac/linux   暂未编译,可自行编译


V1.0
发布时间:2023.3.18
更新内容:
1)首次发布
夸克网盘「DS采集器公开版版本发布记录」 链接:https://pan.quark.cn/s/b6972753f8d2 提取码:ALPw
win10/win11/win7/win8 DS.v1.0.x64.2023.03.18.exe
mac/linux   暂未编译,可自行编译

一直以来我开发这个软件的初衷

  • 当今时代,无处不存在对数据获取的需求。对于企业来说, 可以通过招聘开发人员专门进行数据采集。 但对于大部分 需要数据,但不懂开发的个人来说,获取数据则是困难的, 很显然,他们是不可能通过编程开发进而获取数据的。

  • 编写报告, 撰写论文,从事分析相关的研究人员,政府公务人员,销售人员,运营人员, 学生等,在日常工作生活都有面临采集网页数据的需求。 但很多时候,大部分人仅仅是需要一批网页数据,通过分析得出一些结论。 但是由于获取数据的成本较高,还需要额外学编程语言开发采集, 这对于他们来说是极其痛苦的,因为不能把有限的时间放在最有价值的事情上。

  • 虽然开发程序采集数据,这对于开发人员来说,是比较简单的, 但是对于一个不懂编程的人,这是困难的, 而且即使是开发人员,可能也不愿意编写程序采集数据,因为太浪费时间。

对DS的展望和计划

  • 希望DS能够成为一款类似于office,WPS 一样的一个办公必备软件,每一位有需要的职场人员,都可以使用DS进行采集数据,来应对日常工作

  • DS将永久开源,所有功能永久免费,我会保持更新,也希望有兴趣的开发者能够一起完善,并希望大家多提意见或建议,

软件声明

  • 本产品只是采集数据的工具,我们不对数据版权负责。我们尊重版权,您必须在采集之前联系数据所有者取得授权, 任何因数据授权产生的问题由使用者负生部责任,另外对于数据的使用请严格遭守《国家网络安全法》, 使用本软件即代表悠同意此声明

授权协议

  • 本项目自有代码使用宽松的MIT协议,在保留版权信息的情况下可以自由应用于各自商用、非商业的项目。 但是本项目也零碎的使用了一些其他的第三方库,包括使用了Qt, 由于使用本项目而产生的商业纠纷或侵权行为一概与本项目及开发者无关,请自行承担法律风险。 在使用本项目代码时,也应该在授权协议中同时表明本项目依赖的第三方库的协议,以及遵循相应的规定。
MIT License Copyright (c) 2022 Vanishi Permission is hereby granted, free of charge, to any person obtaining a copy of this software and associated documentation files (the "Software"), to deal in the Software without restriction, including without limitation the rights to use, copy, modify, merge, publish, distribute, sublicense, and/or sell copies of the Software, and to permit persons to whom the Software is furnished to do so, subject to the following conditions: The above copyright notice and this permission notice shall be included in all copies or substantial portions of the Software. THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE.

About

一个Qt开发的可以替代爬虫的网页数据采集软件,它最重要的特点就是,降低了采集网页数据的门槛,由至少必须掌握一门编程语言降低到只要会操作电脑即可。 expand collapse
C++ and 3 more languages
MIT
Cancel

Releases (3)

All

Contributors

All

Activities

Load More
can not load any more
马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化
C++
1
https://gitee.com/Vanishi/DS.git
git@gitee.com:Vanishi/DS.git
Vanishi
DS
DS
master

Search

344bd9b3 5694891 D2dac590 5694891