# python_crawler

**Repository Path**: Deserted/python_crawler

## Basic Information

- **Project Name**: python_crawler
- **Description**: 爬虫学习
- **Primary Language**: Python
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2015-08-11
- **Last Updated**: 2020-12-19

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

#python_crawler

python爬虫学习
基于python2.7.9

1. 脚本介绍

1.1 left_ticket_query_12306
1.1.1 功能：自动化余票查询，出现合适票可以邮件通知
1.1.2 使用方式：通过抓包获取出发站和到达站的代码，修改发车日期，根据注释选择车类型及座位类型，需要邮件发送则需要填写邮箱相关信息。

1.2 zhihu_daily_hot
1.2.1 功能：获取知乎每日热点，并发送至邮箱
1.2.2 使用方式：填写邮箱信息。

1.3 zhihu_comment_crawler
1.3.1 功能：获取某个回答下特定人物的评论信息
1.3.2 使用方式：由于未登陆无法获取评论的用户信息，因此需要填写登陆知乎的账号密码，同时填写答案的url，85行需要修改为支持搜索用户的列表格式。

2. 遗留问题:
2.1 QQ邮箱接收邮件时候超链接会丢失，具体原因是在连接后自动补上<\a>，深层原因不详。
2.2 基于抓包可以看到json格式，但是用urlencode貌似无法编码出与原url相同的后缀。
2.3 正则匹配某一个分支的时候无法匹配到正常结果，原因不详，因此使用BeautifulSoup解析。
2.4 MIMEText能否用append方式追加邮件内容。
2.5 unicode的处理，在Windows下使用ide和cmd命令行结果显示上存疑。