采集到的评论数量与实际的评论数量不符
大神知道一下  谢谢!
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2016-4-19 17:20

沙发
Fuller 管理员 发表于 2016-4-15 19:06:53 | 只看该作者
需要更进一步的现象描述

或者你可以把规则名帖出来,管理员会帮你看看
举报 使用道具
板凳
Wadechosen 初级会员 发表于 2016-4-18 10:08:56 | 只看该作者
Fuller 发表于 2016-4-15 19:06
需要更进一步的现象描述

或者你可以把规则名帖出来,管理员会帮你看看

就是说,我抓取淘宝的商品评论,网页上每一页的评论数量为40条,而生成的xml文件中对应于评论的记录小于40条,而且每个xml文件中的记录数量也不一样
举报 使用道具
地板
Fuller 管理员 发表于 2016-4-18 15:37:58 | 只看该作者
Wadechosen 发表于 2016-4-18 10:08
就是说,我抓取淘宝的商品评论,网页上每一页的评论数量为40条,而生成的xml文件中对应于评论的记录小于4 ...

这个现象说明抓取规则不适合,比如,评论A的某个信息a,位于div/font/text(),而评论B的类似信息b,却位于 div/text(),多一个或者少一个dom节点;还有可能就是每条评论的某个信息的@class属性不一样,比如,星级的class,每个星级都有自己的class,如果定义的规则不通用,那么只能抓取某个星级的
举报 使用道具
5#
Wadechosen 初级会员 发表于 2016-4-19 16:12:44 | 只看该作者
Fuller 发表于 2016-4-18 15:37
这个现象说明抓取规则不适合,比如,评论A的某个信息a,位于div/font/text(),而评论B的类似信息b,却位 ...

嗯嗯  好的
谢啦
举报 使用道具
6#
Wadechosen 初级会员 发表于 2016-4-19 17:02:56 | 只看该作者
Fuller 发表于 2016-4-18 15:37
这个现象说明抓取规则不适合,比如,评论A的某个信息a,位于div/font/text(),而评论B的类似信息b,却位 ...

那如果我采用的是样例复制且每个父节点信息都是一样的,是不是就能够采集到所有的信息呢?
谢谢
举报 使用道具
7#
Fuller 管理员 发表于 2016-4-19 17:20:12 | 只看该作者
Wadechosen 发表于 2016-4-19 17:02
那如果我采用的是样例复制且每个父节点信息都是一样的,是不是就能够采集到所有的信息呢?
谢谢 ...

如果规则的适应性不够,采用样例复制的时候,有些信息会漏掉,样例复制的意思只是说要采集所有的相同结构的信息,至于能否采集到,要看这个规则在采集每个的时候能否适用
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-28 19:55