30 21153

新浪微博_博主主页采集

ym 于 2016-2-18 16:57 发表 [复制链接]
我新发布了一个采集规则:
新浪微博_博主主页采集


详细信息:
本规则采集博主主页的博文信息,可以批量采集微博网址的数据,只需把同类网址导入到规则即可,具体使用方法请参考教程http://www.gooseeker.com/doc/article-85-1.html 。
【注意:采集前要设置DS打数机的配置菜单->滚屏参数,滚屏次数为15或以上,滚屏速度为2,具体参数含义请看http://www.gooseeker.com/doc/article-57-21.html】

希望大家喜欢!下载地址:
http://www.gooseeker.com/res/detail_112862.html
举报 使用道具
| 回复

共 30 个关于本帖的回复 最后回复于 2020-5-31 18:41

Pan_miumiu 新手上路 发表于 2016-6-5 00:13:08 | 显示全部楼层
好用。
举报 使用道具
tt75142899 新手上路 发表于 2016-6-23 15:02:29 | 显示全部楼层
好用,不错
举报 使用道具
fishhaichun 高级会员 发表于 2017-6-5 20:53:17 | 显示全部楼层
以前用的时候很好用,隔一段时间就不知道为什么跑一段就报错,然后存不到电脑里
举报 使用道具
Fuller 管理员 发表于 2017-6-5 22:02:37 | 显示全部楼层
fishhaichun 发表于 2017-6-5 20:53
以前用的时候很好用,隔一段时间就不知道为什么跑一段就报错,然后存不到电脑里 ...

微博登录了吗?报错内容是什么?
举报 使用道具
fishhaichun 高级会员 发表于 2017-6-6 15:33:54 | 显示全部楼层
Fuller 发表于 2017-6-5 22:02
微博登录了吗?报错内容是什么?

感谢回复,微博确认是登录状态的,大概4月份以后吧我试过几次都不成功
我现在马上再跑一次将报错信息发给你,请给我点建议吧。


举报 使用道具
fishhaichun 高级会员 发表于 2017-6-6 16:15:46 | 显示全部楼层
Fuller 发表于 2017-6-5 22:02
微博登录了吗?报错内容是什么?

以下就是报错信息,我又试了几次,博主主页采集还是没有成功,单搜或群搜都有通过打数机浏览博主主页的过程,虽然时间很短
我同时还在试着用关键字搜索的工具,那个就会很正常的浏览翻页然后存入DataScraperWorks的文档下,
然而,博主主页就只有这个报错的log了,请帮我看看到底是什么问题,太感谢了。

2017-06-05 22:08:32 FileHandler RemoveCloseWindowMark WARN: Fail to find .metaseeker
2017-06-05 22:08:32 DataScraperEngine CloseEngineExternal WARN: Closing the engine, which is initiated from the external
2017-06-06 16:48:44 ValidateDelayedPage:Run 新浪微博_博主主页46221 ERROR: Timeout to load the page
2017-06-06 16:48:44 ExtractWebNodeData_Simp:Run 新浪微博_博主主页46221 WARN: Encounter processor error. The processor is skipped. PipeLineState : 54
2017-06-06 16:48:44 SaveFile_Simp:Run 新浪微博_博主主页46221 WARN: Encounter processor error. The processor is skipped. PipeLineState : 54
2017-06-06 16:48:44 ExtractSpiderClue_Simp:Run 新浪微博_博主主页46221 WARN: Encounter processor error. The processor is skipped. PipeLineState : 54
2017-06-06 16:48:45 PushStack:Run 新浪微博_博主主页46221 WARN: Encounter processor error. The processor is skipped. PipeLineState : 54
2017-06-06 16:48:45 CleanWorksBucket:Run 新浪微博_博主主页46221 WARN: Encounter processor error. The processor is skipped. PipeLineState : 54
2017-06-06 16:48:46 FetchSpiderClue flushLastModified WARN: lastmodified is expected
2017-06-06 16:51:12 DataScraperEngine CrawlForTheme WARN: Transfer state from 18 to STATE_CRAWL_COUNTED.
2017-06-06 16:52:27 ValidateDelayedPage:Run 新浪微博_博主主页46221 ERROR: Timeout to load the page
2017-06-06 16:52:27 ExtractWebNodeData_Simp:Run 新浪微博_博主主页46221 WARN: Encounter processor error. The processor is skipped. PipeLineState : 54
2017-06-06 16:52:27 SaveFile_Simp:Run 新浪微博_博主主页46221 WARN: Encounter processor error. The processor is skipped. PipeLineState : 54
2017-06-06 16:52:27 ExtractSpiderClue_Simp:Run 新浪微博_博主主页46221 WARN: Encounter processor error. The processor is skipped. PipeLineState : 54
2017-06-06 16:52:28 PushStack:Run 新浪微博_博主主页46221 WARN: Encounter processor error. The processor is skipped. PipeLineState : 54
2017-06-06 16:52:28 CleanWorksBucket:Run 新浪微博_博主主页46221 WARN: Encounter processor error. The processor is skipped. PipeLineState : 54
2017-06-06 16:52:29 FetchSpiderClue flushLastModified WARN: lastmodified is expected
2017-06-06 16:54:36 DataScraperEngine CrawlForTheme WARN: Transfer state from 18 to STATE_CRAWL_COUNTED.
2017-06-06 16:55:56 ValidateDelayedPage:Run 新浪微博_博主主页46221 ERROR: Timeout to load the page
2017-06-06 16:55:56 ExtractWebNodeData_Simp:Run 新浪微博_博主主页46221 WARN: Encounter processor error. The processor is skipped. PipeLineState : 54
2017-06-06 16:55:56 SaveFile_Simp:Run 新浪微博_博主主页46221 WARN: Encounter processor error. The processor is skipped. PipeLineState : 54
2017-06-06 16:55:56 ExtractSpiderClue_Simp:Run 新浪微博_博主主页46221 WARN: Encounter processor error. The processor is skipped. PipeLineState : 54
2017-06-06 16:55:57 PushStack:Run 新浪微博_博主主页46221 WARN: Encounter processor error. The processor is skipped. PipeLineState : 54
2017-06-06 16:56:03 CleanWorksBucket:Run 新浪微博_博主主页46221 WARN: Encounter processor error. The processor is skipped. PipeLineState : 54
2017-06-06 16:56:04 FetchSpiderClue flushLastModified WARN: lastmodified is expected
2017-06-06 16:58:12 DataScraperEngine CrawlForTheme WARN: Transfer state from 18 to STATE_CRAWL_COUNTED.
2017-06-06 17:04:36 DataScraperEngine CloseEngineExternal WARN: Closing the engine, which is initiated from the external
2017-06-06 17:10:25 DataScraperEngine CloseEngineExternal WARN: Closing the engine, which is initiated from the external
举报 使用道具
Fuller 管理员 发表于 2017-6-6 18:30:59 | 显示全部楼层
fishhaichun 发表于 2017-6-6 16:15
以下就是报错信息,我又试了几次,博主主页采集还是没有成功,单搜或群搜都有通过打数机浏览博主主页的过 ...

你能看到DS打数机的浏览器加载了网页?

看这个日志,是采集超时了,如果网页能看到显示出来了,那么就是规则有问题了。我让技术人员检查一下
举报 使用道具
fishhaichun 高级会员 发表于 2017-6-6 22:37:59 | 显示全部楼层
Fuller 发表于 2017-6-6 18:30
你能看到DS打数机的浏览器加载了网页?

看这个日志,是采集超时了,如果网页能看到显示出来了,那么就是 ...

谢谢您每次这么快就回复。
是的,我每次都能看到打数机的浏览器加载网页,但是基本上翻到第二页的时间就会自动中断,
等待技术支持

举报 使用道具
shenzhenwan10 金牌会员 发表于 2017-6-7 10:33:26 | 显示全部楼层
fishhaichun 发表于 2017-6-6 22:37
谢谢您每次这么快就回复。
是的,我每次都能看到打数机的浏览器加载网页,但是基本上翻到第二页的时间就 ...

测试了一下, 抓取正常
你抓取有问题的网址是什么?

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 03:45