如图所示,抓取1000个APP的链接作为下级线索,并在二级页面抓取相关信息,但在二级抓取时统计线索显示只有400多条线索,是什么原因呢?
另:我用的直接翻页的设置,没有连续动作设置。

1.png (27.82 KB, 下载次数: 561)

1.png

2.png (103.83 KB, 下载次数: 589)

2.png

3.png (82.04 KB, 下载次数: 579)

3.png
举报 使用道具
| 回复

共 16 个关于本帖的回复 最后回复于 2018-3-15 09:06

沙发
xandy 论坛元老 发表于 2017-1-4 14:38:22 | 只看该作者
举报 使用道具
板凳
sanmuluoluo 初级会员 发表于 2017-1-4 14:41:03 | 只看该作者
xandy 发表于 2017-1-4 14:38
参看帖子《下级页面数和统计下及线索数不一致》

刚看了版主的回复,感觉并不是上面几个原因呢。每个下级线索并不是重复的。规则设置也十分简单,不晓得怎么搞了
举报 使用道具
地板
xandy 论坛元老 发表于 2017-1-4 14:42:19 | 只看该作者
sanmuluoluo 发表于 2017-1-4 14:41
刚看了版主的回复,感觉并不是上面几个原因呢。每个下级线索并不是重复的。规则设置也十分简单,不晓得怎 ...

3种原因都认真排查一下,因为有那么多的话肯定会采集到的
举报 使用道具
5#
xandy 论坛元老 发表于 2017-1-4 15:02:43 | 只看该作者
本帖最后由 xandy 于 2017-1-4 15:04 编辑
sanmuluoluo 发表于 2017-1-4 14:41
刚看了版主的回复,感觉并不是上面几个原因呢。每个下级线索并不是重复的。规则设置也十分简单,不晓得怎 ...

靠感觉是没用的,实践出真知,以后碰到类似问题实际操作看一下。

检查如下:

如上图,该酷传列表网页经采集,确实采集到了相关的1000个APP的基本资料,包含详情页面的链接,链接也有1000条
但是,第二级规则也就是统计生成的线索数只有434条,如下图所示。

看下链接是否有重复网址,如下图所示,一大批的网址是重复(标红)的

将网址去重后,剩下了434条网址,如下图所示:

综上所述:采集到的网址本身就是有重复的,所以统计的线索数经过去重处理后会减少。


举报 使用道具
6#
sanmuluoluo 初级会员 发表于 2017-1-4 16:01:24 | 只看该作者
xandy 发表于 2017-1-4 15:02
靠感觉是没用的,实践出真知,以后碰到类似问题实际操作看一下。

检查如下:

扫噶,明白了,多谢版主!
举报 使用道具
7#
wevolution 高级会员 发表于 2017-3-24 15:13:16 | 只看该作者
那有没有办法抓取所有的呢?虽然重复了,但是我确实还是需要的
举报 使用道具
8#
wangyong 版主 发表于 2017-3-24 15:25:41 | 只看该作者
线索会自动去重,这种需要抓取下来后用Excel或其他工具筛出重复的,抓完一遍后再继续添加其他的线索
举报 使用道具
9#
Fuller 管理员 发表于 2017-3-24 15:25:57 | 只看该作者
wevolution 发表于 2017-3-24 15:13
那有没有办法抓取所有的呢?虽然重复了,但是我确实还是需要的

网页上能看到的这些内容是都能抓下来的,但是生成下级线索的时候,如果网址有重复,就会被过滤掉
举报 使用道具
10#
HJLing 版主 发表于 2017-3-24 15:26:21 | 只看该作者
wevolution 发表于 2017-3-24 15:13
那有没有办法抓取所有的呢?虽然重复了,但是我确实还是需要的

在第一级的时候是采全的
就算是有一样的下级链接也是都采了的
只是作为线索添加到第二级规则的时候
程序会去重
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 21:05