9 16973

模拟点击

lvshuang 于 2017-1-15 16:44 发表 [复制链接]
抓取规则中设置了模拟点击,如果其他线索里面别的抓取内容都有,就是不需要进行模拟点击,还可以成功抓取么?
举报 使用道具
| 回复

共 9 个关于本帖的回复 最后回复于 2017-1-19 16:57

Fuller 管理员 发表于 2017-1-15 18:08:33 | 显示全部楼层
可以抓取,没有可点击的位置就不点击,内容正常抓取
举报 使用道具
lvshuang 初级会员 发表于 2017-1-15 18:30:31 | 显示全部楼层
Fuller 发表于 2017-1-15 18:08
可以抓取,没有可点击的位置就不点击,内容正常抓取

那为什么可以进行模拟点击的就可以抓取并本地存储,不需要模拟点击的,网页也会滚屏,不过抓取不到内容,本地文件夹没有任何XML文件记录。
举报 使用道具
Fuller 管理员 发表于 2017-1-15 21:14:45 | 显示全部楼层
lvshuang 发表于 2017-1-15 18:30
那为什么可以进行模拟点击的就可以抓取并本地存储,不需要模拟点击的,网页也会滚屏,不过抓取不到内容, ...

如果抓取内容都没有,说明规则有问题,不适应那种网页结构。主题名是什么?我可以帮你诊断一下
举报 使用道具
lvshuang 初级会员 发表于 2017-1-16 10:18:59 | 显示全部楼层
Fuller 发表于 2017-1-15 21:14
如果抓取内容都没有,说明规则有问题,不适应那种网页结构。主题名是什么?我可以帮你诊断一下
...

主题名:indiegogo项目信息-动作2
谢谢
举报 使用道具
Fuller 管理员 发表于 2017-1-16 21:06:33 | 显示全部楼层
lvshuang 发表于 2017-1-16 10:18
主题名:indiegogo项目信息-动作2
谢谢

除了这个规则还有哪个? 我加载了这个规则,只有翻页(点击 show more),这个规则似乎没有什么问题,只是你没有用任何定位标志映射,其实这个网站上有很多很合适的@class值可以做为定位标志。
举报 使用道具
Fuller 管理员 发表于 2017-1-16 21:07:13 | 显示全部楼层
用这个规则抓取的时候,哪个网页抓不到内容?
举报 使用道具
lvshuang 初级会员 发表于 2017-1-19 11:11:05 | 显示全部楼层
Fuller 发表于 2017-1-16 21:07
用这个规则抓取的时候,哪个网页抓不到内容?

主要是回复的样例复制问题。原规则只抓取大于两个回复的回复内容,有一个回复的就不会抓取。试过几种定位可是都不能成功抓取所有类型的回复。肿么破呢?
其他的主题名:indiegogo项目信息-动作1
谢谢~

举报 使用道具
ym 版主 发表于 2017-1-19 15:23:57 | 显示全部楼层
本帖最后由 ym 于 2017-1-19 15:49 编辑

测试过你的两个规则,评论和回复都可以抓到,只是你第一级规则的点击动作实际上并没有执行,然后第二级是重复采集了N遍。说明规则做得有问题。
举报 使用道具
ym 版主 发表于 2017-1-19 16:57:30 | 显示全部楼层
本帖最后由 ym 于 2017-1-19 17:00 编辑

要解决你的规则问题,要做如下修改:
1、修改第二级规则:
网页上隐藏的回复是存在html里的,不用点击 See 1 more reply...  ,就可以直接采到,要做如下图的修改,第一张图是对第二级规则的整理箱顶节点做上定位标志映射,限定采集范围;第二张图是修改comment部分的结构,再对范围、comment、评论内容都做上定位标志映射,精确采集范围。这样设置就可以直接采到所有的评论信息,并且不会重复。
QQ截图20170119164802.png
QQ截图20170119164844.png

2、修改第一级规则:
把第一级规则的点击动作从点击 See 1 more reply...  改为点击 show more,定位表达式(如下)要锁定唯一一个节点,因为第一级规则最初的点击动作锁定了4个点击对象,其中两个是一直存在于网页上的,所以也导致了重复采集。
  1. //*[@class='campaignBody-leadSection']//*[@class='pull-right i-show-more ng-scope']//*[@class='ng-binding']
复制代码
QQ截图20170119163759.png

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 22:27