如何使用微博工具箱-以采集博主主页内容为例

2021-5-28 16:02| 发布者: Fuller| 查看: 8845| 评论: 0

摘要: 集搜客有成熟的微博工具箱,可以采集微博的关键词搜索,博主主页内容,博主信息,微博话题,博文转发/评论等等。不需要做采集规则,输入关键词或者网页链接就可以采集,非常简单快捷。我们以博主主页内容为例,讲解 ...


集搜客有成熟的微博工具箱,可以采集微博的关键词搜索博主主页内容博主信息微博话题博文转发/评论等等。不需要做采集规则,输入关键词或者网页链接就可以采集,非常简单快捷。

我们以博主主页内容为例,讲解微博工具箱的使用过程。

1. 首先下载安装Gooseeker数据管家(增强版爬虫软件)

数据管家实际是一个特殊的浏览器,具有爬虫功能和数据分析功能的浏览器。

安装完毕,数据管家会自启动。

关闭数据管家后,要再次启动,可双击桌面上的数据管家图标。

2. 在Gooseeker数据管家,打开集搜客官网https://www.gooseeker.com

首先,分别登录爬虫软件(见下图左下角红框),和登录会员中心(见下图右上角红框)。

注意:爬虫账号和会员中心账号一定要一致。数据管家第一次运行会提示登录,这是登录爬虫软件。如果做了这次登录,通常情况下,在打开集搜客官网的时候会自动提示同步登录会员中心,点击确认即可。

其次,检查是否已经连上服务器(绿勾连接,红叉未连接)。如果服务器未连接,请重新登陆左下角爬虫账号(不是右上角的登录会员中心),点击“重选服务器”按钮,输入 https://www.gooseeker.com ,注意优先使用 https,如果https不能连接,再尝试http


3. 打开微博网站https://www.weibo.com,并登陆一个微博账号

在数据管家浏览器新开一个页签窗口,打开微博网站。

https://www.weibo.com,并登陆一个微博账号。

因为微博网站要登陆后,才能正常浏览,所以采集之前,要先在数据管家里打开并登陆微博网站。

4. 进入微博工具箱

在数据管家的左侧边栏,点击“微”按钮,进入微博工具箱。


选中博主主页内容工具

进入博主主页内容工具的简介页面

5. 操作步骤

大概需要以下4个步骤。


5.1 新建采集任务

点击网页上的“新建采集任务”按钮,出现如下图所示的对话框。下面重点说明根据采集需求,怎么选择采集范围,以及怎样获取博主主页链接。

5.1.1 采集博主所有的博文

如果要采集博主所发的全部博文,采集范围选择“全部历史微博”。(如果博文不超过10页,也可以选择通过链接翻页看到的全部微博”)

博主主页链接这样获取:


5.1.2 只采集某个月的博文

采集范围选择 通过链接翻页看到的全部微博

博主主页链接这样获取:


5.1.3 采集某个特定时间段,或者某些特定筛选条件下的博文

采集范围选择通过链接翻页看到的全部微博”。

通过博主主页的高级搜索功能,获取博主主页链接。



5.2 启动采集

选择了采集范围,并添加了链接后,就可以点击启动采集。

注意,点击启动采集后,会有如下提示框,要求采集之前,在当前浏览器登陆微博。我们在前面已经登陆过了,所以点击继续。如果没有登陆,点击“去登陆”,系统会自动打开微博网站,你需要去登陆一个微博账号。然后再回来点击继续。爬虫会弹出采集窗口,加载微博网页,采集数据。


弹出两个采集窗口,一个加载网页,采集数据,一个打包上传数据,两个窗口都不能关。


5.3 打包、下载数据

采集完成后,采集状态变成绿色的已采集,然后就可以打包,下载数据。


6. 采集到的数据

打包下载压缩的ZIP数据包,一般会下载到电脑的下载文件夹。可以双击自解压得到excel数据表。

示例数据:


除了博文,数据表里还有个字段值得特别注意:博文独立链接。有了博文独立链接,我们可以把这些链接添加到转发/评论工具,批量采集各个博文的转发和评论。或者添加到博文展开工具,批量采集到完整的被折叠长博文。

从以上的介绍可以看出,微博工具箱里的多个工具可以结合起来使用,能采集到更大批量的数据。


鲜花

握手

雷人

路过

鸡蛋

最新评论

GMT+8, 2024-3-28 16:33