3 9578

模拟点击后不能翻页

mamaise 于 2017-7-24 11:23 发表 [复制链接]
https://movie.douban.com/subject/5327189/?tag=%E7%83%AD%E9%97%A8&from=gaia
我想先在第一个页码采集数据,采集完后,通过模拟点击(全部评论),进入评论页码把所有评论爬下来。
现在的问题是:
我可以通过模拟点击,进入到评论页面,但不会翻到评论的第二页。
我单独用规则2对评论进行爬取,又可以正常翻页。

规则名:
伦敦_1
伦敦_2

还有个题外的问题。不知道我调过什么东西,我现在设置的翻页规则只能用“绝对定位”或者“只用id”。比如我要爬取人们对豆瓣某电影的所有评分,如果我选择两者之外的,我只能爬取到一种等级的评分(如5分),其他的(1、2、3、4)都爬不到。是我加了什么规则进去的原因吗?别人用相似的步骤去设定规则,他也不会出现这个问题。

举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2017-7-24 16:12

shengchengx 金牌会员 发表于 2017-7-24 14:39:14 | 显示全部楼层
这个网页可以用爬虫路线里的记号线索来做也可以用连续动作的,用记号线索做的话,会把全部评论的链接自动添加到伦敦_2,然后再单独运行伦敦_2就可以抓取,伦敦_1的记号线索定位有问题呢
举报 使用道具
mamaise 初级会员 发表于 2017-7-24 15:57:19 | 显示全部楼层
shengchengx 发表于 2017-7-24 14:39
这个网页可以用爬虫路线里的记号线索来做也可以用连续动作的,用记号线索做的话,会把全部评论的链接自动添 ...

改用连续动作确实就可以自动翻页了。伦敦_1的记号线索,不知道为什么,每一次我做好记号映射,定位线索一,保存,试验爬取,确定可以翻页。之后我再打开这个规则,已经做好的记号线索就消失了,定位变化变成1。不知道哪里出了问题。

举报 使用道具
shengchengx 金牌会员 发表于 2017-7-24 16:12:09 | 显示全部楼层
mamaise 发表于 2017-7-24 15:57
改用连续动作确实就可以自动翻页了。伦敦_1的记号线索,不知道为什么,每一次我做好记号映射,定位线索一 ...

因为每次加载的时候网页都会有变化呢

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 16:40