想要实践模拟动作,所以尝试抓取了京东手机产品的具体信息,有两个问题想要请教,麻烦各位了!
第一个问题:
1.jpg
想要抓取“商品介绍”和“规格与包装”两个页面的数据。因为“商品介绍”的内容也是需要规定连续动作之后才能采集的,所以在运行“商品介绍”的规则前会有一个第一层级的规则。请问这个时候“商品介绍”和“规格与包装”这两个规则还有第一层级规则的关系是什么样的?“规格与包装”的模拟点击动作应该连接在第一层级规则上,还是应该再抓取完“商品介绍的数据后,连接在“商品介绍”的规则上?也就是说,在点击会员中心“管理规则”的关系的时候出现的应该是“第一层级规则”和“商品介绍”是上下级,然后“商品介绍”和“规则与包装”是上下级关系,这样的递进关系呢?还是应该是“第一层级规则”和“商品介绍”是上下级,然后“第一层级规则”和“规则与包装”是上下级关系,这样的并列关系呢?

第二个问题:
在运行“规则与包装”规则抓取数据的时候,出现了数据错乱的问题。因为“规则与包装”页面要抓取的项目较多,我采取的是边测试边继续添加抓取内容的方式。发现一个问题,在刚开始添加抓取内容的时候数据都是正确的,但是添加到接近或者超过一半的时候会出现数据错乱的现象,即添加抓取内容的名称和顺序是对的,但是抓取到的内容一直重复头三个数据项。
之后尝试了建立两个整理箱,第一个整理箱的数据恢复正常了,但是第二个整理箱的数据还是错误的。
4.jpg 整理箱设计(从网页上“存储”部分开始分成两个整理箱)
3.jpg 第一个整理箱数据正常
2.jpg 第二个整理箱数据重复循环第一个整理箱的前三个数据和所有数据项都在一个整理箱里面的情况一样
请问数据错乱的问题应该怎么解决?

十分感谢!


5.jpg
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2017-3-30 09:51

quyixuan 金牌会员 发表于 2017-3-27 14:28:34 | 显示全部楼层
第一个问题:京东的商品页面进去就可以直接采集商品介绍的,不需要做连续动作,可以一级规则进去采集商品介绍,然后在这个规则里面做连续动作点击“规格和包装”,进入下一级规则采集规则和包装的内容

第二个问题:第二个整理箱数据不正常,这种情况可能会有很多原因造成,一般的可能是定位有问题,你可以试试“偏好id”或者“绝对定位”,也有可能是你做的定位标志有问题,你先自己检查一下,多尝试
举报 使用道具
livia1014 初级会员 发表于 2017-3-30 09:46:42 | 显示全部楼层
quyixuan 发表于 2017-3-27 14:28
第一个问题:京东的商品页面进去就可以直接采集商品介绍的,不需要做连续动作,可以一级规则进去采集商品介 ...

感谢解答!关于数据错乱的问题,听了建议,我设置了“绝对定位”已经解决了。
关于主题中的第一个问题,我在表述的过程中发现漏掉了一个很重要的需求,所以没有体现出来规则顺序给我带来的困惑,我现在补上这个需求:
在抓取“商品介绍”和“规格与包装”的数据之外,我还需要有多个点击的连续动作需要设置
6.jpg
即上图中部分,不同的选择在价格和之后数据的颜色属性上都会有变化。我之前编写的规则是先将这部分的连续动作设置为第一级规则,然后每种不同组合为一个线索抓取“商品介绍”和“规格与包装“,所以出现了帖子内容中不知道“商品介绍”和“规格与包装”应该是递进还是并列的问题。
1.jpg
听了您的建议“商品介绍”可以直接抓取以后,我现在第一级规则直接抓取“商品介绍”。但是在这个选择颜色、版本等组合的连续动作和抓取“规格与包装”的顺序、关系方面产生了问题。我是应该在第一级规则抓取“商品介绍”之后先写多个“点击”的连续动作引申到第二级规则,然后在第二级规则里面抓取当前动作组合的价格和颜色信息并且写一个模拟点击动作,之后再引申到第三级规则抓取“规格与包装”的数据吗?
还是说应该先写颜色和版本等选项组合的连续动作,然后是抓取“商品介绍”和“规格与包装”的信息呢?如果是这样,“商品介绍”和“规格与包装”又回到最开始主题内容里面的问题了,是怎样的顺序呢?
问题有些长麻烦了,谢谢!

举报 使用道具
Fuller 管理员 发表于 2017-3-30 09:51:12 | 显示全部楼层
我认为顺序是:
第一级:颜色和规格的组合点击,进入第二级
第二级:点击“商品介绍”,进入第三级
第三级:抓取商品介绍,点击“规格和包装”,进入第四级
第四级:只抓取规格和包装,不用动作
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 02:25