如图,我这个规则一个整理箱里只有唯一一个模拟点击的内容映射。模拟点击是按照教程里点击了关键内容,抓取数据时有六分之一(大概50多个)的线索出现了匹配失败 超时的现象。
找了几个线索回查时出现了下面的情况。现在是要取消关键内容吗还是要重新映射呢?重新映射的话要映射什么内容?谢谢!麻烦了。
规则名: movie-contect-more.

微信图片_20180718181855.png (16.46 KB, 下载次数: 773)

微信图片_20180718181855.png
举报 使用道具
| 回复

共 15 个关于本帖的回复 最后回复于 2018-7-22 13:38

沙发
Fuller 管理员 发表于 2018-7-18 19:02:06 | 只看该作者
你的规则搜索不到,你是不是把规则删除了?
举报 使用道具
板凳
luna0614 初级会员 发表于 2018-7-18 21:18:05 | 只看该作者
Fuller 发表于 2018-7-18 19:02
你的规则搜索不到,你是不是把规则删除了?

我刚看了一下并没有哇
举报 使用道具
地板
luna0614 初级会员 发表于 2018-7-18 21:19:28 | 只看该作者
luna0614 发表于 2018-7-18 21:18
我刚看了一下并没有哇

是不是我写错了的原因?是下划线,和图里的一样啊。 movie_contect_more

举报 使用道具
5#
Fuller 管理员 发表于 2018-7-19 09:29:48 | 只看该作者

用上定位标志映射,生成的规则就会更加有适应性。具体参看:https://www.gooseeker.com/doc/article-344-1.html

你定义的第二级都没有设置关键内容,在这一级上不会有失败的,但是可能会漏抓

定位标志20180719092757.png (135.23 KB, 下载次数: 773)

定位标志20180719092757.png
举报 使用道具
6#
wangyong 版主 发表于 2018-7-19 09:30:37 | 只看该作者
关键内容勾的是演员里的查看更多,直接加载规则的样本页面没有报错,报错的是不是有些电影并不需要点击查看更多?
举报 使用道具
7#
luna0614 初级会员 发表于 2018-7-19 16:51:28 | 只看该作者
本帖最后由 luna0614 于 2018-7-19 16:54 编辑
wangyong 发表于 2018-7-19 09:30
关键内容勾的是演员里的查看更多,直接加载规则的样本页面没有报错,报错的是不是有些电影并不需要点击查看 ...

不是的,有的还是有的。
举报 使用道具
8#
luna0614 初级会员 发表于 2018-7-19 16:52:14 | 只看该作者
本帖最后由 luna0614 于 2018-7-19 16:54 编辑
Fuller 发表于 2018-7-19 09:29
用上定位标志映射,生成的规则就会更加有适应性。具体参看:https://www.gooseeker.com/doc/article-344-1 ...

我试了好像还是不行。
举报 使用道具
9#
wangyong 版主 发表于 2018-7-19 17:16:39 | 只看该作者
你可以把采集失败的网址贴出来,我们分析一下
举报 使用道具
10#
Fuller 管理员 发表于 2018-7-19 17:25:32 | 只看该作者
luna0614 发表于 2018-7-19 16:52
我试了好像还是不行。

我刚才又测试了你的规则,都挺好的。

为了做规则检查,而且确保不漏抓取数据,要设置关键内容,我把第一级和第二级都设置了关键内容。运行正常。

你遇到失败的网址是多少?如果不知道网址是多少,可以按照这个教程加载和分析失败线索:https://www.gooseeker.com/doc/article-231-1.html

加载以后,把失败的网址发出来我看看
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 11:26