代码拉取完成,页面将自动刷新
刚安装好测试采集下面网址内容时提示,未获取到源代码。
https://news.lmjx.net/2021/202110/2021101311060450.shtml
用浏览器能正常打开,也能看到源代码。
这是为什么?
测试下你提供的网址主页:https://news.lmjx.net/ 和其他域名例如:https://www.qq.com/ 的源码能不能正常抓取
如果都不能抓取,检查下是否开启了代理ip(ip无效时抓取不到源码),php有没有开启curl模块
都不行的话提供下php版本号
测试抓取www.qq.com , www.sina.co.cn 的源代码都是可以正常获取的,但是https://news.lmjx.net/这个域名下的就获取不到源代码。
PHP版本5.5.38
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。
可以抓取,估计你的ip被封了
又一个奇怪的问题。
https://www.solarbe.com/data/zhengce/?page=19
上面这个作为起启页,结构很简单,我写的获取内容页规则是:
从选定区域中提取网址-获取网址区域:
“ <table border="0" cellspacing="0" class="tablee">[内容link]<div class="pagesize"> ”
结果网址过滤-必须包含:itemid
但是测试结果却是 “未获取到内容页网址”
PS: gitee里居然不能打半角的<>
登录 后才可以发表评论