11#
756292075 中级会员 发表于 2017-1-12 14:55:11 | 只看该作者
xandy 发表于 2017-1-11 16:42
一个解决方案就是:
点击不同的尺码后,网址上带的参数ID后面的值是发生变化的,所以可以通过采集这个ID值 ...

点击尺码后网址变成https://detail.tmall.com/item.ht ... ies=20549:296172561

就是原网址后加上“&sku_properties=20549:296172561”
其中“20549:296172561”可以通过采集@data-value 得到
问题是怎么自动构造下级线索?
举报 使用道具
12#
ym 版主 发表于 2017-1-12 15:10:34 | 只看该作者
你这个不能自动构造网址,因为网址前面部分的id=**是与商品唯一对应的,不同商品的id都不相同,这样就不能做到通用性。
你可以人工拷贝网址进行收集,或者手工构造网址,操作参考《如何构造网址》的第2点
举报 使用道具
13#
756292075 中级会员 发表于 2017-1-12 16:18:53 | 只看该作者
ym 发表于 2017-1-12 15:10
你这个不能自动构造网址,因为网址前面部分的id=**是与商品唯一对应的,不同商品的id都不相同,这样就不能 ...

构造网址法我懂~但觉得采集一个spu用这么多步骤有点复杂~点击之后页面网址有变化,变化之后的网址有办法采集下来么?
或者说最开始的办法,为什么尺码最后一位点了2次,打数机只会在第二次点击,也就是取消选定后才会采集数据?
举报 使用道具
14#
ym 版主 发表于 2017-1-12 16:50:27 | 只看该作者
本帖最后由 ym 于 2017-1-12 16:51 编辑

变化后的网址也可以采集到,xml文件的realpath字段就是记录真实网址的,而fullpath就是初始网址,《xml文件结构怎么看》一文里对系统字段解释得很详细了。
举报 使用道具
15#
756292075 中级会员 发表于 2017-1-12 20:05:23 | 只看该作者
xandy 发表于 2017-1-11 15:57
如果是这样的思路:
连续动作步骤1,点击码数,xpath这样写
连续动作步骤2,点击颜色,xpath这样写

我设置最后一个点3次,但无论是点击还是输入,3次每次抓到的都是取消点击的内容?(realpath最后是skuid就是两个属性都选了,是sku_properties就是只选了一个)

realpath
precedence
theme
middle
createdate
pageno
库存量
sku测试1
规则_1
2017-1-12 19:59:30
0
0-+-0-+-0
银灰色-+-37-+-
sku测试1
规则_1
2017-1-12 19:59:32
0
0-+-1-+-0
银灰色-+-39-+-
sku测试1
规则_1
2017-1-12 19:59:35
0
0-+-2-+-0
银灰色-+-36-+-
sku测试1
规则_1
2017-1-12 19:59:38
0
0-+-3-+-0
银灰色-+-38-+-38
sku测试1
规则_1
2017-1-12 19:59:41
0
0-+-3-+-0
银灰色-+-38-+-38
sku测试1
规则_1
2017-1-12 19:59:44
0
0-+-3-+-0
银灰色-+-38-+-38
sku测试1
规则_1
2017-1-12 19:59:47
0
1-+-0-+-0
银白色-+-39-+-38
sku测试1
规则_1
2017-1-12 19:59:50
0
1-+-0-+-0
银白色-+-39-+-38
sku测试1
规则_1
2017-1-12 19:59:52
0
1-+-0-+-0
银白色-+-39-+-38

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-28 22:49