最近碰到个问题——翻页翻不完;
我抓取的是当当网的评论内容,像这个网址http://comm.dangdang.com/reviewlist/23464478,连续动作也不是很好用,我不知道是我的规则的问题还是其他的原因
规则主题名:
当当评论连续测试

举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2016-11-8 16:52

沙发
ym 版主 发表于 2016-11-3 18:09:13 | 只看该作者
只要xpath能定位到网页上的下一页节点,就会一直点击,所以,你写的xpath要排除最后一页的节点,这样到最后一页就会停止点击了。你可以试试其他翻页设置,更多翻页方法见http://www.gooseeker.com/doc/thread-698-1-1.html


举报 使用道具
板凳
987654321 初级会员 发表于 2016-11-3 20:26:49 | 只看该作者
我之前设置过点击次数,最多翻一千多页,和这些页数相比差好多
举报 使用道具
地板
Fuller 管理员 发表于 2016-11-3 20:41:45 | 只看该作者
987654321 发表于 2016-11-3 20:26
我之前设置过点击次数,最多翻一千多页,和这些页数相比差好多

把DS打数机菜单上设置 高级-〉终点标志-〉重复中断,到最后遇到重复内容就自动中断了,不用自定义XPath
举报 使用道具
5#
Fuller 管理员 发表于 2016-11-3 20:42:31 | 只看该作者
如果是用爬虫群模式,这个中断选项要在调度参数中设置。如果用集搜或者单搜,则用菜单设置
举报 使用道具
6#
987654321 初级会员 发表于 2016-11-3 21:52:41 | 只看该作者
线索 不会自动加载,
因为大数机跑一段时间后就白屏了,页面中什么都没有,但还是无限制的循环翻页,还有那个页数翻不完这个怎么解决,
举报 使用道具
7#
Fuller 管理员 发表于 2016-11-3 22:28:43 | 只看该作者
987654321 发表于 2016-11-3 21:52
线索 不会自动加载,
因为大数机跑一段时间后就白屏了,页面中什么都没有,但还是无限制的循环翻页,还有那 ...

不要用连续动作,用翻页抓取最合适,参看《翻页采集列表

我看到你的规则里面要点2500次,用连续动作的话,即使空白了,也要点满2500次。我试了一下这个翻页,当当网页可能有问题,你点击最后一页,根本翻不了页。

最合适的方法是用翻页抓取,如果你想限制翻页次数,那么不能用集搜或者单搜,而是用爬虫群模式,在会员中心-〉规则管理,找到这个规则,点击这个规则,进入到管理页面,能看到“加入爬虫群”操作,点击“调度”,点开高级参数,设置“同一线索内的翻页次数”

爬虫群启动方法参看《如何运行爬虫群
举报 使用道具
8#
Fuller 管理员 发表于 2016-11-3 22:31:51 | 只看该作者
当当这个网页,翻页的时候时好时坏
举报 使用道具
9#
987654321 初级会员 发表于 2016-11-8 16:52:06 | 只看该作者
Fuller 发表于 2016-11-3 22:31
当当这个网页,翻页的时候时好时坏

这同样的规则我采集微博就不会出现这样的bug,你说的这几种我再做做看!
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 04:34