# Open-Spider **Repository Path**: luchatex/open-spider ## Basic Information - **Project Name**: Open-Spider - **Description**: 不懂网络爬虫技术,也可轻松采集海量数据!简单易上手,人人可用的工具! - **Primary Language**: Java - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: http://www.stonedt.com - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 230 - **Created**: 2025-05-15 - **Last Updated**: 2025-05-15 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Open-Spider 用户信赖的互联网数据采集器 ## 产品简介 满足多种业务场景,适合产品、运营、销售、数据分析、政府机关、电商从业者、学术研究等多种身份职业。 - 舆情监控 全方位监测公开信息,抢先获取舆论趋势。 - 市场分析 获取用户真实行为数据,全面把握顾客真实需求。 - 用户反馈 强力支撑用户调研,准确获取用户反馈和偏好。 - 风险预测 高效信息采集和数据清洗,及时应对系统风险。 ## 主要特点 - 模板采集 模板采集模式内置上百种主流网站数据源,如京东、天猫、大众点评等热门采集网站,只需参照模板简单设置参数,就可以快速获取网站公开数据。 - 智能采集 采集可根据不同网站,提供多种网页采集策略与配套资源,可自定义配置,组合运用,自动化处理。从而帮助整个采集过程实现数据的完整性与稳定性。 - 自定义采集 针对不同用户的采集需求,可提供自动生成爬虫的自定义模式,可准确批量识别各种网页元素,还有翻页、下拉、ajax、页面滚动、条件判断等多种功能,支持不同网页结构的复杂网站采集,满足多种采集应用场景。 ## 采集范围 - ### 电商平台 覆盖20+跨境电商平台,覆盖Amazon、AliExpress、Shopee、Lazada、eBay、Wish、Alibaba等全球20+跨境电商平台。 - ### 社交媒体|短视频 覆盖全网全渠道的社交媒体数据,包括微博、微信公众号、知乎、抖音、小红书、B站、豆瓣、各类垂直行业论坛贴吧等,KOL挖掘、社会化聆听、活动监控等。 - ### 工商信息 根据公司名称,采集公司网址、公司简介、浏览量、更新时间、公司法人、公司注册资金、统一社会信用代码,纳税人识别号、公司类型等46个字段。 - ### 招标平台 采集国家/省/市/县政府类:中国招标与采购网、中国建设工程招标网、中国招投标网等。招标信息聚合类:千里马、金采网等。 - ### 房产数据 实时采集全国各级市区县的房地产数据(包括房产基础数据、房产租售交易数据、土地交易数据),涵盖各类房产信息网站:中原、搜房、房天下、房多多、赶集网、房星网、Q房网、合房网、乐有家、21世纪房产等、各省市房管局网站和各省市土地招拍挂网站。 - ### 政府政策 获取全国各省市区最新政策动态,分部委办局、分文件类型、分行业、分条口部门、分地区、分时间 等、支持各种不同的政策分类标签与字段。 ## 系统架构 (待续未完) ## 功能结构 (待续未完) ## UI 展示 (待续未完) ## 在线体验 (待续未完) ## 免责声明 请勿将本项目产品应用到任何可能会违反法律规定和道德约束的工作中,请友善使用本项目产品,遵守蜘蛛协议,不要用于任何非法用途。如您选择使用即代表您遵守此协议,作者不承担任何由于您违反此协议带来任何的法律风险和损失,一切后果由您承担。 ## 安装教程 (待续未完) 1. xxxx 2. xxxx 3. xxxx ## 按需定制|数据定制 当您在开发与研究中遇到 **数据采集、数据处理、舆情系统定制** 等方面的问题,请联系我们,我们会以最快的速度提供专业的解决方案。为您提供必要的专业技术支持。 服务流程如下 ![输入图片说明](https://gitee.com/stonedtx/yuqing/raw/master/ProIMG/data-plan.png) ## 相关开源项目 - **[数据采集系统](https://gitee.com/stonedtx/open-spider)** 采用分布式技术对海量信息采集,采集类型包括文字、图象、音频、视频等。 - **[数据处理系统](https://gitee.com/stonedtx/yuqing-process)** 将采集数据采用NLP和文本挖掘技术对此标签,以便于用户分类查看和检索。 - **[监测分析系统](https://gitee.com/stonedtx/yuqing)** 对采集数据展示分析,提供用户个性化配置,让每个用户获取不同的数据分析展示结果。 - **[后台管理系统](https://gitee.com/stonedtx/yuqing-manager)** 对组织和用户、方案配置、用户日志 等,提供了一套管理后台。 ## 产品经理微信 扫描微信二维码,技术交流。 ## 捐赠方式 ## 联系我们 + 微信号: techflag + 电话: 13505146123 + 邮箱: wangtao@stonedt.com + 公司官网:[www.stonedt.com](http://www.stonedt.com) 欢迎您在下方留言,或添加微信与我们交流。 ## License & Copyright Copyright (c) 2014-2022 思通数科 StoneDT, All rights reserved. Licensed under The GNU General Public License version 3 (GPLv3) (the "License"); you may not use this file except in compliance with the License. You may obtain a copy of the License at Unless required by applicable law or agreed to in writing, software distributed under the License is distributed on an "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. See the License for the specific language governing permissions and limitations under the License.