2 Star 19 Fork 1

g1879 / DrissionPage-demos

Create your Gitee Account
Explore and code with more than 6 million developers,Free private repositories !:)
Sign up
Clone or download
爬取腾讯新闻.py 1021 Bytes
Copy Edit Web IDE Raw Blame History
g1879 authored 2020-12-29 15:55 . 调整目录结构
#!/usr/bin/env python
# -*- coding:utf-8 -*-
# @Author : g1879
# @Date : 2020-08-18
# @Email : g1879@qq.com
# @File : 爬取腾讯新闻.py
"""
本程序可爬取腾讯网新闻列表的标题和链接,并显示出来。
该列表为滚动加载列表,可使用由MixPage派生的ScrollingPage子类进行爬取。
"""
from DrissionPage import Drission
from DrissionPage.config import DriverOptions
from base_page.scrolling_page import ScrollingPage
xpaths = { # 列表页结构
'container': '//div[@id="List"]//ul[@class="list"]', # 列表容器
'rows': 'li', # 行
'cols': { # 列
'标题': '//h3/a',
}
}
待爬 = ['标题', ['标题', 'href']]
url = 'https://news.qq.com/'
do = DriverOptions().set_headless().set_no_imgs() # 设置浏览器为无界面、不加载图片
驱动器 = Drission(do)
page = ScrollingPage(驱动器, index_url=url, **xpaths) # 创建页面对象
page.get_list(待爬, 10, wait=1) # 滚动10次,遇到新列表为空会自动停止

Comment ( 0 )

Sign in for post a comment

Python
1
https://gitee.com/g1879/DrissionPage-demos.git
git@gitee.com:g1879/DrissionPage-demos.git
g1879
DrissionPage-demos
DrissionPage-demos
master

Search