master

分支 (1)

管理

管理

master

cats_eye_film_top100_crawler
/
spider.py

import requests
import re
import json
from requests.exceptions import RequestException
headers = "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36"
def get_one_page(url):
	try:
		response = requests.get(url, headers={"User-Agent":"headers"})
		if response.status_code == 200:
			return response.text
		return None
	except RequestException:
		return None


def parse_one_page(html):
	pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'
						 +'.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'
						 +'.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)
	items = re.findall(pattern, html)
	for item in items:
		yield{
		'index': item[0],
		'image': item[1],
		'title': item[2],
		'actor': item[3].strip()[3:],
		'time': item[4].strip()[5:],
		'score': item[5]+item[6]
		}

def write_to_file(content):
	with open('result.text', 'a', encoding='utf-8') as f:
		f.write(json.dumps(content, ensure_ascii=False) + '\n')
		f.close()

def main():
	for offset in range(0, 100, 10):
		url = "http://maoyan.com/board/4?offset=" + str(offset)
		html = get_one_page(url)
		for item in parse_one_page(html):
			print(item)
			write_to_file(item)

if __name__ == '__main__':
	main()