# spider **Repository Path**: dsfsfs/spider ## Basic Information - **Project Name**: spider - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2016-05-12 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ## spider 该项目主要用于抓取天猫、京东和苏宁易购三个商城的手机数据。数据将以json格式并以文件形式存储在服务器中。 框架webmagic的学习文档[地址](http://webmagic.io/docs/zh/) ### 执行入口 * JdMain、TmMain和SnygMain是执行抓取程序的入口,主要逻辑是:将需要抓取的手机品牌与该商城有的品牌进行匹配,然后根据匹配出来的品牌进行抓取,以json格式并以文件形式存储到指定目录中。 * 各个入口类中的main方法都有三个入参:inputFile(存储需要抓取的品牌文件),encode(inputFile内容的编码格式),outputFilePath(存放手机数据的文件路径) * 三个参数的设置示例: - pinpai.txt utf-8 ..//info//2016-08-01//jd// (这是在windows环境下) ### 加一句废话 ### 爬虫具体逻辑 JdPageProcessor、TmPageProcessor和SnygPageProcessor是爬虫具体逻辑。获取某品牌下所有分页的商品url,通过商品url进入商品详情页获取商品的相关信息,如:价格、商品名称、规格等。 ### 部署 项目部署在 132.37.3.11 主机上,用户名spider,路径/wapp/uniiof/users/spider/woego-spider 使用crontab 每天7点定时执行TmMain和SnygMain。因京东存在IP被封的问题,因此采用手动模式(程序猿在自己电脑上跑,周期可以是一周)。手动跑出的数据将其移到服务器/wapp/uniiof/users/spider/woego-spider/info目录中。 ### 部署注意事项 1. 运行TmMain会存在java版本问题,目前使用1.7.0_101版本是没问题的 2. 将京东数据移到服务器上时,文件名会存在乱码问题,可以使用下面的命令将当前目录下的所有文件的文件名从gbk转成utf-8。 convmv -f gbk -t utf-8 --notest -r *