【启动采集前的配置】

  • 预先登陆网站:是
  • 配置打码平台:否

【运行方法】— 详见数据DIY图文教程

  • 用GS爬虫浏览器或者是安装了爬虫软件的火狐浏览器访问热门微博榜单页面;
  • 输入一个或多个搜索结果网址,然后点击“获取数据”;
  • 点击“启动采集”按钮,采集完成后点击“打包”按钮,就可以下载数据了。

【常见问题】— 欢迎跟帖留言
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2021-1-19 09:55

几十块123 新手上路 发表于 2018-6-24 17:07:15 | 显示全部楼层
能不能直接选取带有关键词的热门微博???
举报 使用道具
yusuan_8 新手上路 发表于 2018-6-24 19:06:02 | 显示全部楼层
几十块123 发表于 2018-6-24 17:07
能不能直接选取带有关键词的热门微博???

应该使用微博采集工具箱中的关键词搜索工具:https://www.gooseeker.com/land/weibo.html
举报 使用道具
halo1997 初级会员 发表于 2021-1-18 12:31:21 | 显示全部楼层
最多能抓取多少条信息呢,为什么我每次只能获取一二百条
举报 使用道具
Fuller 管理员 发表于 2021-1-18 15:21:18 | 显示全部楼层
halo1997 发表于 2021-1-18 12:31
最多能抓取多少条信息呢,为什么我每次只能获取一二百条

这是一个瀑布流网页,越往下滚动加载的内容越多,网页会特别大,占用内存特别多,最后就运行不动了。

我找技术人员确认一下,看看这个规则有没有开启清除老数据
举报 使用道具
halo1997 初级会员 发表于 2021-1-18 16:32:16 | 显示全部楼层
Fuller 发表于 2021-1-18 15:21
这是一个瀑布流网页,越往下滚动加载的内容越多,网页会特别大,占用内存特别多,最后就运行不动了。

我 ...

好的,谢谢!我开了旗舰版会员,如果能清楚老数据烦请告知,想要获得更多的数据
举报 使用道具
halo1997 初级会员 发表于 2021-1-18 23:12:50 | 显示全部楼层
Fuller 发表于 2021-1-18 15:21
这是一个瀑布流网页,越往下滚动加载的内容越多,网页会特别大,占用内存特别多,最后就运行不动了。

我 ...

怎么才能获取发现_热门微博的几万条数据,求教程,自己定义的规则也抓取不下来,谢谢
举报 使用道具
平安健康 初级会员 发表于 2021-1-19 09:41:19 | 显示全部楼层
halo1997 发表于 2021-1-18 23:12
怎么才能获取发现_热门微博的几万条数据,求教程,自己定义的规则也抓取不下来,谢谢
...

这种瀑布流网页很难采集到上万条数据,你可以用微博采集工具箱 中的微博关键词采集工具或者微博博主主页采集工具来采集,这两个工具采集到内容多而且稳定也比较有价值
举报 使用道具
halo1997 初级会员 发表于 2021-1-19 09:55:01 | 显示全部楼层
平安健康 发表于 2021-1-19 09:41
这种瀑布流网页很难采集到上万条数据,你可以用微博采集工具箱 中的微博关键词采集工具或者微博博主主页 ...

好的 谢谢
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-28 19:35