13 9802

采集失败原因

18443172656 于 2021-3-11 12:10 发表 [复制链接]
我需要采集的网站有大概有4000页,每次采集到90页左右就会加载不出网页,翻页失败,日志显示:抓取超时,或规则不适用,怎么回事
举报 使用道具
| 回复

共 13 个关于本帖的回复 最后回复于 2021-3-11 20:47

wangyong 版主 发表于 2021-3-11 14:50:02 | 显示全部楼层
你可以把超时时长调高一点,看看网页加载时间调大以后能不能加载出来内容来
QQ截图20210311144903.png
同时可以把滚屏打开
举报 使用道具
Fuller 管理员 发表于 2021-3-11 14:50:37 | 显示全部楼层
什么网站?把网址发出来
举报 使用道具
18443172656 中级会员 发表于 2021-3-11 16:34:42 | 显示全部楼层
wangyong 发表于 2021-3-11 14:50
你可以把超时时长调高一点,看看网页加载时间调大以后能不能加载出来内容来

同时可以把滚屏打开

时长加大到600秒依然不行,每次都是到90页左右就会失败,三次了,会不会是网站有限制?
微信截图_20210311163218.png
举报 使用道具
18443172656 中级会员 发表于 2021-3-11 16:34:53 | 显示全部楼层
举报 使用道具
Fuller 管理员 发表于 2021-3-11 17:02:52 | 显示全部楼层
18443172656 发表于 2021-3-11 16:34
https://esm.mi.ingv.it/DYNA-stage/CadmoDriver?_action_prepare_find_div=1&_page=ACC_Events_Stations ...

可能有翻页限制。我本来想手工翻页到90页试试,但是这个网页太慢了,没法手工验证
举报 使用道具
Fuller 管理员 发表于 2021-3-11 17:07:20 | 显示全部楼层
我试了一下翻页到最后一页,这是可以的,看来没有翻页限制,就是太慢了。

很可能到后面以后,网页结构变了,所以就采集失败了。那么可以翻到最后一页,用爬虫规则分析一下页面试试
举报 使用道具
Fuller 管理员 发表于 2021-3-11 17:07:37 | 显示全部楼层
你的规则名字是什么?
举报 使用道具
Fuller 管理员 发表于 2021-3-11 17:08:50 | 显示全部楼层
我从最后一页倒着往前翻,估计10分钟都不够,很可能还是超时时常不够造成的
举报 使用道具
18443172656 中级会员 发表于 2021-3-11 17:36:05 | 显示全部楼层
Fuller 发表于 2021-3-11 17:07
我试了一下翻页到最后一页,这是可以的,看来没有翻页限制,就是太慢了。

很可能到后面以后,网页结构变了 ...

规则名是:esm采集1

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-28 18:25