任务名是:新报层级抓取第二级72;新加坡邮报第二级。
请问我爬取一个网页(任务“新报层级抓取第二级72”),规则几乎对所有要爬取的链接都适应,采集时长也设置了60s,但为什么还是有一部分内容无法采集成功呢?我反复爬取了三次,都是一样的结果诶,请帮忙看看(标黄的部分内容缺失) 然后我刚刚又爬取了一个一千多条链接的网页(任务“新加坡邮报第二级”),又出现了相同的情况,求教~




举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2024-3-17 22:58

沙发
Fuller 管理员 发表于 2024-3-17 22:58:12 | 只看该作者
我加载了你的规则,像下图这样点击测试按钮,看采集规则:

看发布时间这个抓取内容的xpath,可以看出来,是相对于第一个抓取内容“文章标题”的xpath。如果有些网页相对关系有变化,就会采集不到。想避开这个问题的话,可以给“列表”做一个定位映射,这样做以后,所有抓取内容都会相对于“列表”生成xpath

生成的xpath就是这样了:

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-30 06:56