网页地址 http://cp.360.cn/jczq/zhh/?issue=20151101&r_a=7vqiqq

如图片所示,整个70几行的数据只采集到了50几行。采集到的数据少了一些条目。请问大家这是什么原因?

火狐截图_2015-11-05T14-16-57.651Z.png (28.04 KB, 下载次数: 1129)

360数据

360数据

火狐截图_2015-11-05T14-19-16.933Z.png (53.33 KB, 下载次数: 1231)

excel数据

excel数据
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2015-11-9 23:24

沙发
gz51837844 管理员 发表于 2015-11-5 22:59:11 | 只看该作者
这个页面结构里的样例映射是第一个TR当第一个样例,第三个TR当第二个样例
应该70多个都可以采集下来
举报 使用道具
板凳
Fuller 管理员 发表于 2015-11-5 23:49:00 | 只看该作者
主题名是什么?管理员可以加载上来看看具体问题在哪。

我初步估计,可能是因为网页上有些行的数据颜色有变化(比如那些有绿框的),那么就是@class值不一样。通常抓取规则会用这些@class做定位,很可能把不一样的排除出去了。

这种情况通常可以设置“绝对定位”,而不使用@class和@id这样的标志。不过这样的抓取规则的适应力不太够。还有一些其它的细调技巧
举报 使用道具
地板
csljy1986 新手上路 发表于 2015-11-6 20:15:20 | 只看该作者
gz51837844 发表于 2015-11-5 22:59
这个页面结构里的样例映射是第一个TR当第一个样例,第三个TR当第二个样例
应该70多个都可以采集下来 ...

试了一下,以第一个TR 和第三个TR作为样例复制 采集的数据还少些。如图

火狐截图_2015-11-06T12-11-36.561Z.png (41.02 KB, 下载次数: 1216)

360数据1

360数据1
举报 使用道具
5#
csljy1986 新手上路 发表于 2015-11-6 20:44:42 | 只看该作者
Fuller 发表于 2015-11-5 23:49
主题名是什么?管理员可以加载上来看看具体问题在哪。

我初步估计,可能是因为网页上有些行的数据颜色有变 ...

主题名称是 足彩360  
使用绝对定位采集到的只有17条数据。总共有73条数据。
举报 使用道具
6#
csljy1986 新手上路 发表于 2015-11-6 21:37:04 | 只看该作者
Fuller 发表于 2015-11-5 23:49
主题名是什么?管理员可以加载上来看看具体问题在哪。

我初步估计,可能是因为网页上有些行的数据颜色有变 ...

今天对比数据时发现,采集的数据和原始数据对不上
举报 使用道具
7#
Fuller 管理员 发表于 2015-11-9 23:24:18 | 只看该作者
这个网站的内容有多种背景色和文字色彩,要想把抓取规则做的很通用,必须要用自定义xpath做很多微调。工作量不小。建议在qq群里问问谁可以提供有偿服务或者使用本站的定制服务找人做
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-30 21:52