1 39983

如何管理规则的线索

ym 于 2015-10-22 15:57 发表 [复制链接]
常见问题 > 采集数据—常见问题导航 > 采集过程的常见问题 > 如何管理规则的线索

配套软件版本:V9及更低 集搜客网络爬虫
新版本对应教程:V10及更高 数据管家——增强版网络爬虫  的对应教程是《如何管理网络爬虫的线索


一、应用场景
1、添加网址:做好了一个规则,不仅仅是用来采集样本网页的,还可以采集与样本网页结构相同的网页,只需把网址添加到规则中就行。例如,做了一个采集某个京东商品页面的规则,就可以采集不同商品的页面,我们只需把这些商品的网址添加到规则里。
2、激活线索:另外,采集完这批网址,还想重新采集一遍,不用再添加一次,直接激活所有线索,就能重复采集这批网址。
3、删除线索:如果不想再采集这批网址,我们可以去活线索或者是删掉线索,这样爬虫就不会采集了。


(注:上面的线索和网址就是一回事,网页的网址其实就是爬虫要采集的线索)

二、网址的综合管理方法
会员中心的任务管理网页提供了综合的管理网址的方法,进入会员中心的方法如下。
方法1:在浏览器中输入会员中心网址
登录到集搜客官网,进入会员中心->任务管理,选中某个任务,进入到管理页面,就可以添加、激活、去活、删除线索,添加线索的操作参见教程http://www.gooseeker.com/doc/article-172-1.html
注意1:免费版爬虫的激活操作最多只能激活前1千条线索,如需激活更多线索,请购买付费版爬虫
注意2:去活与下面提到的撤销是相同的操作,不是删除,只是把线索的状态从等待抓取改为成功抓取,这样就不会采集它,激活后还可以再次使用。

方法2:使用数据管家的便捷按钮
数据管家是集搜客的新产品,更加便捷易用。如下图,左栏菜单有任务管理和数据管理的快捷按钮,点击以后直接进入到会员中心。
数据管家20200627-163012.png


三、在集搜客DS打数机上管理网址
:数据管家的网址管理完全融入了集成化的会员中心,不再有这些管理功能了,这是DS打数机特有的。

1:通过打数机添加网址
启动Gooseeker爬虫浏览器,在浏览器的右上角,点击DS打数机按钮,进入DS打数机管理窗口,右击规则名,在弹出的快捷菜单中,统计线索和管理线索是经常用到的,其中,添加线索的操作见http://www.gooseeker.com/doc/article-129-1.html


2:通过打数机统计网址
在采集数据前,先点击一下统计线索,可以知道该规则是否有待抓取的线索,如果没有就需要去添加新线索或激活已有的线索,如下图。
统计.png
3:其他网址管理功能
所有网址都采完后,通常会提示“”可逐条/批量添加新的网址;或者是激活失败线索、激活所有线索、撤销所有线索。
添加.png





举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2016-11-5 22:33

Fuller 管理员 发表于 2016-11-5 22:33:10 | 显示全部楼层
会员中心的进入方法参看:《怎样进入会员中心?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 08:10