层级采集时有数据没有爬下来,提示”抓取失败(超时)……”。然后我按建议的将滚屏次数换成了4、滚屏速度换成了-1(然而我并不知道这是啥意思),然后重新抓取,有时在打数机那儿会提示“抓取成功,但爬虫规则还有优化空间以提高抓取速度。“,这是什么情况?

举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2018-10-20 15:36

沙发
Fuller 管理员 发表于 2018-10-19 16:33:56 | 只看该作者
这说明这个网页上有大量的动态内容,用javascript显示的内容。可能不滚屏就不加载。滚屏速度如果是负数,越小越快,正数的话,越大越快。1和-1应该一样,速度没有倍增。

因为网页上有持续执行的javascript代码,所以爬虫就会等待代码的执行,有些永远执行不完,就等了过长的时间。对于这种情况,在DS打数机上,用菜单 配置-》定时器触发,就能不等待这些代码的执行。就不会出现“速度需要优化”的提示了
举报 使用道具
板凳
玉汝于成 初级会员 发表于 2018-10-20 12:19:09 | 只看该作者
谢谢您!
那为什么层级采集时有数据没有爬下来,提示”抓取失败(超时)……”时会建议将滚屏次数换成4、滚屏速度换成-1呢?默认的值是滚屏次数2、滚屏速度也为2。
举报 使用道具
地板
Fuller 管理员 发表于 2018-10-20 15:16:10 | 只看该作者
玉汝于成 发表于 2018-10-20 12:19
谢谢您!
那为什么层级采集时有数据没有爬下来,提示”抓取失败(超时)……”时会建议将滚屏次数换成4、滚 ...

没爬下来的应该是规则不适应。应该按照这个教程加载分析一下,看看失败在哪个抓取内容上:https://www.gooseeker.com/doc/article-231-1.html
举报 使用道具
5#
玉汝于成 初级会员 发表于 2018-10-20 15:36:27 | 只看该作者
Fuller 发表于 2018-10-20 15:16
没爬下来的应该是规则不适应。应该按照这个教程加载分析一下,看看失败在哪个抓取内容上:https://www.go ...

我看了。我再学一段时间,现在是小白,不太懂的还很多。谢谢您了~~
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 19:41