新报层级抓取第二级72；新加坡邮报第二级

Fiona1_

任务名是：新报层级抓取第二级72；新加坡邮报第二级。
请问我爬取一个网页（任务“新报层级抓取第二级72”），规则几乎对所有要爬取的链接都适应，采集时长也设置了60s，但为什么还是有一部分内容无法采集成功呢？我反复爬取了三次，都是一样的结果诶，请帮忙看看（标黄的部分内容缺失）然后我刚刚又爬取了一个一千多条链接的网页（任务“新加坡邮报第二级”），又出现了相同的情况，求教~

Fuller · 发表于 2024-3-17 22:58:12

我加载了你的规则，像下图这样点击测试按钮，看采集规则：

看发布时间这个抓取内容的xpath，可以看出来，是相对于第一个抓取内容“文章标题”的xpath。如果有些网页相对关系有变化，就会采集不到。想避开这个问题的话，可以给“列表”做一个定位映射，这样做以后，所有抓取内容都会相对于“列表”生成xpath

生成的xpath就是这样了：

新报层级抓取第二级72；新加坡邮报第二级

本帖子中包含更多资源

共 1 个关于本帖的回复最后回复于 2024-3-17 22:58

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

新报层级抓取第二级72；新加坡邮报第二级

本帖子中包含更多资源

共 1 个关于本帖的回复 最后回复于 2024-3-17 22:58

本帖子中包含更多资源

推荐板块

精彩推荐

热门话题

热门用户

共 1 个关于本帖的回复最后回复于 2024-3-17 22:58