11#
xandy 论坛元老 发表于 2017-3-24 15:26:47 | 只看该作者
wevolution 发表于 2017-3-24 15:13
那有没有办法抓取所有的呢?虽然重复了,但是我确实还是需要的

如果你要的不是去重的,那么在做一级规则的时候不要勾选下级线索,在二级规则将一级采集到的网址以线索的形式添加,这样网址就是没有经过去重的。
举报 使用道具
12#
wevolution 高级会员 发表于 2017-3-24 15:39:38 | 只看该作者
66666
举报 使用道具
13#
wevolution 高级会员 发表于 2017-3-24 15:58:45 | 只看该作者
那我一级的时候采集到的线索很多,我一条一条加大二级上去,非得累死
举报 使用道具
14#
Fuller 管理员 发表于 2017-3-24 19:43:52 | 只看该作者
wevolution 发表于 2017-3-24 15:58
那我一级的时候采集到的线索很多,我一条一条加大二级上去,非得累死

不需要一个个添加,进入会员中心,找到这个规则,有添加线索按钮,把所有网址一行行放在一列,存入excel,把这个excel导入就行了。一次不要超过一万条。具体参看《如何管理规则的线索

举报 使用道具
15#
wevolution 高级会员 发表于 2017-3-26 09:30:15 | 只看该作者
好的
举报 使用道具
16#
Huilin 初级会员 发表于 2018-3-15 01:42:55 | 只看该作者
Fuller 发表于 2017-3-24 19:43
不需要一个个添加,进入会员中心,找到这个规则,有添加线索按钮,把所有网址一行行放在一列,存入excel ...

我也遇到了一样的问题,上一级显示有1900+个条目,应产生相应个数下级线索,但是下一级规则只生成1669. 如果要后期手动添加回被查重筛除的线索,请问有什么办法可以检测其中哪些是被查重筛除的吗?
举报 使用道具
17#
Fuller 管理员 发表于 2018-3-15 09:06:53 | 只看该作者
Huilin 发表于 2018-3-15 01:42
我也遇到了一样的问题,上一级显示有1900+个条目,应产生相应个数下级线索,但是下一级规则只生成1669.  ...

用excel查重很方便的

选中那一列,用菜单 开始-》条件格式-》突出显示单元格规则-》重复值
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-3 11:40