# spider

**Repository Path**: dsfsfs/spider

## Basic Information

- **Project Name**: spider
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2016-05-12
- **Last Updated**: 2020-12-19

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

## spider
该项目主要用于抓取天猫、京东和苏宁易购三个商城的手机数据。数据将以json格式并以文件形式存储在服务器中。
框架webmagic的学习文档[地址](http://webmagic.io/docs/zh/)

### 执行入口
* JdMain、TmMain和SnygMain是执行抓取程序的入口，主要逻辑是：将需要抓取的手机品牌与该商城有的品牌进行匹配，然后根据匹配出来的品牌进行抓取，以json格式并以文件形式存储到指定目录中。
* 各个入口类中的main方法都有三个入参:inputFile(存储需要抓取的品牌文件)，encode（inputFile内容的编码格式），outputFilePath（存放手机数据的文件路径）
* 三个参数的设置示例：
    - pinpai.txt utf-8 ..//info//2016-08-01//jd//  （这是在windows环境下） 

### 加一句废话	
	
### 爬虫具体逻辑
JdPageProcessor、TmPageProcessor和SnygPageProcessor是爬虫具体逻辑。获取某品牌下所有分页的商品url，通过商品url进入商品详情页获取商品的相关信息，如：价格、商品名称、规格等。

### 部署
项目部署在 132.37.3.11 主机上，用户名spider，路径/wapp/uniiof/users/spider/woego-spider
使用crontab 每天7点定时执行TmMain和SnygMain。因京东存在IP被封的问题，因此采用手动模式（程序猿在自己电脑上跑，周期可以是一周）。手动跑出的数据将其移到服务器/wapp/uniiof/users/spider/woego-spider/info目录中。

### 部署注意事项
1. 运行TmMain会存在java版本问题，目前使用1.7.0_101版本是没问题的
2. 将京东数据移到服务器上时，文件名会存在乱码问题，可以使用下面的命令将当前目录下的所有文件的文件名从gbk转成utf-8。
    convmv -f gbk -t utf-8 --notest -r *