master

Branches (1)

Manage

Manage

master

crawl_project
/
作业2
/
task3.py

import requests
import re
url = 'https://www.shanghairanking.cn/_nuxt/static/1632381606/rankings/bcur/2021/payload.js'
loginheaders = {
                'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.164 Safari/537.36',
            }
#获取
def getHTMLText(url, loginheaders):
    try:
        r = requests.get(url, headers=loginheaders, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""
data = getHTMLText(url,loginheaders)
#print(data)
#匹配
name = re.findall(r'univNameCn:"(.*?)"', data)
score = re.findall(r'score:(.*?),', data)
#print(name)
#print(score)
#输出
tplt = "{0:^10}\t{1:{3}^10}\t{2:^10}"
print(tplt.format("排名 ", "学校名称", "总分",chr(12288)))
for i in range(0,len(name)):
    print(tplt.format(i+1, name[i], score[i], chr(12288)))