模拟点击切换到另一标签窗口采集商品评论

2015-10-30 14:58| 发布者: HJLing| 查看: 33299| 评论: 27

摘要: 以采集蘑菇街商品累计评论为例,网页初始状态下加载不显示商品评论内容,需要点击累计评论才会显示,这种情况下就需要做模拟点击。 在做抓取规则时需要做两级规则实现模拟点击,第一级规则负责点击,第二级规则负责 ...

注:集搜客GooSeeker爬虫从V9.0.2版本开始,爬虫术语“主题”统一改为“任务”,在爬虫浏览器里先命名任务再创建规则,然后登录集搜客官网会员中心的“任务管理”里,就可以查看任务的采集执行情况、管理线索网址以及做调度设置了。

以采集蘑菇街商品累计评论为例,网页初始状态下加载不显示商品评论内容,需要点击累计评论才会显示,这种情况下就需要做模拟点击。

在做抓取规则时需要做两级规则实现模拟点击,第一级规则负责点击,第二级规则负责抓取点击后显示的内容。

模拟点击和翻页抓取类似,都需要在爬虫路线中设置记号线索,不同的是,点击翻页之后,在同一爬虫窗口继续用当前规则进行抓取;而模拟点击则是,点击网页后,在同一爬虫窗口调用下一级规则进行抓取。

注释1:本文所演示的模拟点击第一级规则,可到资源库下载学习:模拟点击_第一级

注释2:本文所演示的模拟点击第二级规则,可到资源库下载学习:模拟点击_第二级

一、创建第一级规则

第一级负责模拟点击的规则整理箱中可以选择不抓取任何内容,但是为了模拟点击成功率高,我们通常选择抓取需要点击的网页上的按钮并勾上关键内容,以保证模拟点击成功执行。

1.映射抓取内容

图1

如图1所示,具体操作如下

1. 将需要点击的网页内容做内容映射到抓取内容中,并勾选关键内容。

2.规划模拟点击路线

图2

如图2所示,具体操作如下

1. 跳转到爬虫路线工作台。

2. 点击新建,创建一条线索

3. 选择线索类型,模拟点击跟翻页是一样的,选择记号线索

4. 勾选连续翻页,表示在执行抓取任务时,爬虫采完本级规则的网页后,直接点击记号并跳转到下一级规则的网页进行抓取。

5. 勾选连续翻页后,目标主题名默认是当前规则的主题名,要注意的是,在这里不能填写当前规则的主题名,而是填写下一级的规则主题名(注意:填写完下一级规则主题名后,需点击按钮‘谁在用’查看该主题名是否被占用,否则填写了被占用的主题名将无法保存规则),下一级规则虽然现在还没有创建,在这里填上后表示预定。

3.做记号映射

图3

如图3示,具体操作如下

1. 点击目标按钮,自动定位到网页标签节点,展开节点,找到包含“累计评价”的text节点。

2. 右击text节点,线索映射→记号线索,可以看到“累计评论”自动填入到记号值中。

3. 如果记号值前后有空格,就不要勾选全匹配,并且删掉前后的空格,否则遇到空格数量不一致的网页,就会采集失败。

4.做线索范围映射

图4

如图4,具体操作如下

1. 择包含点击按钮且有记号值的区块节点,记号值我们通常选择有class值的节点,因为id值易发生变化,class值较为稳定。由text节点往上级寻找即可找到,包含点击按钮且有记号值的区块节点。

2. 将节点做线索范围的映射,右击翻页区块节点,选择线索映射→定位→线索1 。完成后定位编号会显示翻页区块节点的定位编号。

3.和翻页规则相同,将线索定位首选项改为偏好@class,旧版软件的修改方式:文件菜单栏→线索定位→偏好@class。新版软件的修改方式:爬虫路线定位→偏好class。

存规则后第一级规则就完成了。


二、 创建第二级规则

保存完第一级规则后,可以将MS谋数台关掉,然后重新打开MS谋数台,开始编辑第二级规则;也可以点击文件菜单->新建,待工作台被清空后,就可以制作新规则。

1.填写第一级中预定的第二级规则主题名

图5

如图5(请注意,从V8.3.1版本开始,提示框内容简化了,只显示“该名可以使用”,所以,下面第2和3步就没有必要去判断了),具体操作如下

1. 填写已经在第一级中预定的第二级规则主题名,在第一级规则模拟点击后会直接调用第二级规则进行抓取。

2. 点击查重后可查看刚填写的主题名是否是在第一级规则中预定的第二级规则。

3. 显示该名已经被预定且可编辑。

2.取消内容定位,将网页跳转到抓取页

图6

如图6,具体操作如下

1. 取消内容定位,取消内容定位后可以点击网并跳转

2. 点击“累计评价”按钮,等待抓取内容完全加载

3. 看到抓取内容完全显示

4. 重新勾选内容定位,开始映射抓取内容

5. 点击文件菜单栏→刷新网页结构,就可以做规则了

3.映射抓取内容

图7

如图7,具体操作如下

将要采集的数据映射到整理中并做样例复制后,存规则,这时就完成了模拟点击需要的两级规则。

Tips1:存规则后运行第一级规则进行采集,模拟点击是连贯动作,只需运行第一级规则,爬虫采集时就会自动调用第二级规则进行抓取。注意:不要单独运行第二级规则,因为没有点击就不会有第二级要采集的网页数据,因而会采集失败。

Tips2:运行DS打数机之前,要设置滚屏参数,把滚屏功能打开,选择菜单 配置-〉滚屏参数,把滚屏次数设置成>0的数字,比如,2

Tips3:不仅要抓取网页上的第一条数据,还要把结构相同的数据也抓取下来,就要做样例复制映射,参考教程:样例复制

Tips4:不只想要抓取模拟点击后的页面内容,还要翻页后的内容,参考教程:怎样抓取翻页后的数据

Tips5:想要抓取当前页面的内容,再深入到下一页抓取商品详情页的内容参考教程:怎样深入多层级网页采集数据

Tips6: 加载模拟点击的下一级规则,需要点击到做规则的样本页面后再后续分析,具体操作参考:切换页签后加载规则

39

鲜花
1

握手

雷人
1

路过
2

鸡蛋

刚表态过的朋友 (43 人)

相关阅读

发表评论

最新评论

评论 Fuller 2022-1-30 10:33
问题出在第二级,采集内容含有商品名称和评论,这两部分内容在网页上的距离很远,生成的规则很容易失效。可以给商品名称做上定位映射,提高规则的适应性,还可以把评论放到一个嵌套的整理箱中。因为在这里没法截图,你可以在“使用交流”板块发个帖子,在那里可以贴图
15751778365: 你好,我照着教程做出来,在第一级中一直显示采集失败,导致没有办法进入第二级的评论采集,怎么解决呢?     我的采集规则1:天猫优衣库模拟点击评论        规 ...
评论 15751778365 2022-1-29 20:04
你好,我照着教程做出来,在第一级中一直显示采集失败,导致没有办法进入第二级的评论采集,怎么解决呢?     我的采集规则1:天猫优衣库模拟点击评论        规则二:天猫优衣库商品评论
评论 Fuller 2019-6-28 14:11
wayslien: 我也是一样的问题,上级规则的模拟点击一切正常,执行完之后执行下级规则的时候,页面又重新打开了,没有在上级规则操作过之后的页面进行,感觉是完全独立的规则 ...
把主题名和问题发到社区,技术支持人员加载你的规则,附图给出建议。
评论 wayslien 2019-6-28 13:28
naminshengren: 您好,我的滚屏参数已经设成了2,但是第二个规则就是没有办法被第一个规则调用,请问一下这是啥情况呀?
我也是一样的问题,上级规则的模拟点击一切正常,执行完之后执行下级规则的时候,页面又重新打开了,没有在上级规则操作过之后的页面进行,感觉是完全独立的规则
评论 Fuller 2019-6-6 15:21
ibolee: 我用这个规则抓取,到第二步的时候,抓取评论的时候,瀑布流下翻的时候老是容易中断,数据抓不全。。怎么解决呢?我的采集规则1:by抓取sku描述-190606  采集规 ...
第一级规则在爬虫路线那里,目标任务名应该第二级规则的名字
评论 ibolee 2019-6-6 14:52
我用这个规则抓取,到第二步的时候,抓取评论的时候,瀑布流下翻的时候老是容易中断,数据抓不全。。怎么解决呢?我的采集规则1:by抓取sku描述-190606  采集规则2:by抓取sku描述-190606-step2
评论 Fuller 2018-10-31 17:58
2892925853: 请问这个没有视频教程吗?
这个没有专门的视频教程,视频教程只有基础的几个
评论 2892925853 2018-10-31 16:36
请问这个没有视频教程吗?
评论 gooseeker0809 2018-9-26 16:23
Trimax: 为啥按照这么做的,老是跳不到第二级规则?
我也是
评论 Fuller 2018-9-16 00:23
naminshengren: 您好,我的滚屏参数已经设成了2,但是第二个规则就是没有办法被第一个规则调用,请问一下这是啥情况呀?
在社区发个帖子,贴出来主题名,管理员可以详细地诊断您的规则,在社区可以贴图,交流更方便
评论 naminshengren 2018-9-16 00:11
您好,我的滚屏参数已经设成了2,但是第二个规则就是没有办法被第一个规则调用,请问一下这是啥情况呀?
评论 Jason7227 2018-3-8 11:36
层级抓取和这个模拟点击应该哪个在前面哪个在后面,就上下级规制来说
评论 Fuller 2017-3-15 22:18
Trimax: 为啥按照这么做的,老是跳不到第二级规则?
运行第一级的时候,DS打数机的滚屏参数要设置,滚屏次数设置成>0的数字
评论 Trimax 2017-3-15 22:01
为啥按照这么做的,老是跳不到第二级规则?
评论 Fuller 2016-11-10 16:55
omelet: 执行第一级主题后,为什么我第二级主题没有自动执行?
我估计你没有打开DS打数机的滚屏功能,选择菜单 配置-》滚屏参数,把滚屏次数设置成>0的数字,这个网站设置成2基本上就可以
评论 omelet 2016-11-10 16:38
执行第一级主题后,为什么我第二级主题没有自动执行?
评论 omelet 2016-11-10 16:34
wbog20100319: 你好,在抓取旺旺名字时,因为被隐藏了内容,怎么才能抓取全名那
这是淘宝限制,没法抓
评论 HJLing 2016-8-30 12:00
summous: 我下载了例子,例子里的第二级规则可以直接运行,为什么呢?
单独运行第二级规则,页面虽然没有显示评论的内容,但实际上在HTML里可以查看到评论的信息,所以就直接能采集
评论 summous 2016-6-28 11:29
我下载了例子,例子里的第二级规则可以直接运行,为什么呢?
评论 Fuller 2016-4-10 15:53
wbog20100319: 你好,在抓取旺旺名字时,因为被隐藏了内容,怎么才能抓取全名那
网页上的内容,如果被隐藏了,那就抓不到

查看全部评论(27)

GMT+8, 2024-3-28 19:36