11#
luna0614 初级会员 发表于 2018-7-19 22:48:12 | 只看该作者
Fuller 发表于 2018-7-19 17:25
我刚才又测试了你的规则,都挺好的。

为了做规则检查,而且确保不漏抓取数据,要设置关键内容,我把第一 ...

我又重试了一下还是有很多不行,因为爬的太慢了,中间又不小心断了一次,所以晚了些,见谅。
https://movie.douban.com/subject/26980266/
https://movie.douban.com/subject/27615401/
https://movie.douban.com/subject/27046646/
https://movie.douban.com/subject/30148147/
https://movie.douban.com/subject/26628256/
https://movie.douban.com/subject/30140054/
https://movie.douban.com/subject/27622744/
https://movie.douban.com/subject/27608423/
超时93个比以前的还多了40多个......但是不知道为啥日志里只有10个emmmmm


举报 使用道具
12#
Arie-X 中级会员 发表于 2018-7-19 23:06:15 | 只看该作者
luna0614 发表于 2018-7-19 22:48
我又重试了一下还是有很多不行,因为爬的太慢了,中间又不小心断了一次,所以晚了些,见谅。
https://mov ...

我试了一下前面3个,他们都是因为没有“更多...”,这个内容不总是有,所以用它做关键内容不合适。第一级规则不要“模拟点击标志”,而是抓取影片名字,并且设置成关键内容

我这样建议:
第一级的抓取内容要尽量全地抓取你需要的内容,而不要“模拟点击标志”。当没有“更多....”的时候,第一级就已经抓全了。
举报 使用道具
13#
luna0614 初级会员 发表于 2018-7-21 18:31:30 | 只看该作者
Arie-X 发表于 2018-7-19 23:06
我试了一下前面3个,他们都是因为没有“更多...”,这个内容不总是有,所以用它做关键内容不合适。第一级 ...

意思是第一级先抓所有的内容并且不展开,第二级再模拟点击来抓主演?
举报 使用道具
14#
luna0614 初级会员 发表于 2018-7-21 18:33:34 | 只看该作者
Arie-X 发表于 2018-7-19 23:06
我试了一下前面3个,他们都是因为没有“更多...”,这个内容不总是有,所以用它做关键内容不合适。第一级 ...

但是我抓的时候观察了一下,有的失败的还是有“更多的”。那么因为某些类别比如编剧可能没有会不会导致失败呢?因为我映射导演,主演,编剧都是映射的整个节点而不是text。
举报 使用道具
15#
Fuller 管理员 发表于 2018-7-22 13:35:22 | 只看该作者
luna0614 发表于 2018-7-21 18:33
但是我抓的时候观察了一下,有的失败的还是有“更多的”。那么因为某些类别比如编剧可能没有会不会导致失 ...



这是你的第一级规则的整理箱,有两个问题
1,红框里面的定位标志映射只能适应于有“更多...”的页面,其他页面没有这个定位标志
2,在第一级专门为模拟点击标志设置一个整理箱是没有必要,除非确实要检验这个“更多...”,而且只采集有“更多...”的页面,否则就不要这样定义。把这一级的整理箱定义成跟第二级一样的才行。因为对于没有“更多”的页面,运行第一级就够了

举报 使用道具
16#
Fuller 管理员 发表于 2018-7-22 13:38:48 | 只看该作者
我看了你的第二级,看起来都正确。而且不可能在第二级失败,因为第二级没有设置“关键内容”,所以,你遇到的失败都是第一级造成的。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-3 18:50