137 Star 801 Fork 272

zorlan / 蓝天采集器

 / 详情

未获取到源代码,这是为什么?

待办的
创建于  
2021-10-14 00:35

刚安装好测试采集下面网址内容时提示,未获取到源代码。
https://news.lmjx.net/2021/202110/2021101311060450.shtml

用浏览器能正常打开,也能看到源代码。

这是为什么?

评论 (4)

oldmyth 创建了任务
oldmyth 关联仓库设置为zorlan/蓝天采集器
展开全部操作日志

测试下你提供的网址主页:https://news.lmjx.net/ 和其他域名例如:https://www.qq.com/ 的源码能不能正常抓取
如果都不能抓取,检查下是否开启了代理ip(ip无效时抓取不到源码),php有没有开启curl模块

都不行的话提供下php版本号

测试抓取www.qq.com , www.sina.co.cn 的源代码都是可以正常获取的,但是https://news.lmjx.net/这个域名下的就获取不到源代码。

PHP版本5.5.38

输入图片说明
输入图片说明

可以抓取,估计你的ip被封了

又一个奇怪的问题。
https://www.solarbe.com/data/zhengce/?page=19
上面这个作为起启页,结构很简单,我写的获取内容页规则是:

从选定区域中提取网址-获取网址区域:
“ <table border="0" cellspacing="0" class="tablee">[内容link]<div class="pagesize"> ”
结果网址过滤-必须包含:itemid

但是测试结果却是 “未获取到内容页网址”

PS: gitee里居然不能打半角的<>

登录 后才可以发表评论

状态
负责人
里程碑
Pull Requests
关联的 Pull Requests 被合并后可能会关闭此 issue
分支
开始日期   -   截止日期
-
置顶选项
优先级
参与者(2)
PHP
1
https://gitee.com/zorlan/skycaiji.git
git@gitee.com:zorlan/skycaiji.git
zorlan
skycaiji
蓝天采集器

搜索帮助