# python_crawler **Repository Path**: Deserted/python_crawler ## Basic Information - **Project Name**: python_crawler - **Description**: 爬虫学习 - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2015-08-11 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README #python_crawler python爬虫学习 基于python2.7.9 1. 脚本介绍 1.1 left_ticket_query_12306 1.1.1 功能:自动化余票查询,出现合适票可以邮件通知 1.1.2 使用方式:通过抓包获取出发站和到达站的代码,修改发车日期,根据注释选择车类型及座位类型,需要邮件发送则需要填写邮箱相关信息。 1.2 zhihu_daily_hot 1.2.1 功能:获取知乎每日热点,并发送至邮箱 1.2.2 使用方式:填写邮箱信息。 1.3 zhihu_comment_crawler 1.3.1 功能:获取某个回答下特定人物的评论信息 1.3.2 使用方式:由于未登陆无法获取评论的用户信息,因此需要填写登陆知乎的账号密码,同时填写答案的url,85行需要修改为支持搜索用户的列表格式。 2. 遗留问题: 2.1 QQ邮箱接收邮件时候超链接会丢失,具体原因是在连接后自动补上<\a>,深层原因不详。 2.2 基于抓包可以看到json格式,但是用urlencode貌似无法编码出与原url相同的后缀。 2.3 正则匹配某一个分支的时候无法匹配到正常结果,原因不详,因此使用BeautifulSoup解析。 2.4 MIMEText能否用append方式追加邮件内容。 2.5 unicode的处理,在Windows下使用ide和cmd命令行结果显示上存疑。