6 13501

新版两个问题

iorwang 于 2018-11-16 14:20 发表 [复制链接]
本帖最后由 iorwang 于 2018-11-16 14:31 编辑

一个是升级后漏采严重,虽然打数机不会自动关闭了,但是替代的是漏抓,只要线索数量超过100条,漏采机率特别大,几乎有10-20的面积,在提示抓取完后会发现抓取中的数量比较多;第二个是抓取时浏览器的加载问题,一个网页在软件内打开普通浏览和电脑浏览器中都可以加载出来所有内容,速度也快,但在打数机里面加载速度偏慢一些,而且内容图片也加载不完全,或者内容中的表格文字部分,我抓取的是二级线索的内容页面,问题出现介绍内容中,虽然不经常出现加载问题但还是影响内容的采集;新版算是解决了打数机自行结束的问题了,但规则方面我发现匹配失败的情况增多了,出错的页面我也看了,结构页面和内容是一样的,id和class名也是一样的,定位方式我也是换过不少次,但还是出现了匹配失败的情况,而且单独给出错的页面重新做规则(同样的定位和映射)却可以抓下来,但现在还不是清楚到底是网页结构还是定位的问题了,出错的页面提示找不到节点(不论失败与否的网页),同时几乎所有内容都找不到,但在网页里面却还有标注;要说不一样多多少是字段没有的情况,但这也不可能会影响抓取的啊,我也没有为变化的字段做定位和关键内容,就连“列表”和内容做不做定位情况都一样,但你看了采集的节点也没有什么不同,而且做规则的时候也没有提示过结构不同;还有修改保存规则依然存在需要多次保存和修改才能保存成功,在新版最好的就是解决了关闭问题,卡死的情况也很少有了,但其它的多少还是有发生

举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2018-11-16 18:09

iorwang 初级会员 发表于 2018-11-16 14:20:32 | 显示全部楼层
我用的是单艘
举报 使用道具
iorwang 初级会员 发表于 2018-11-16 14:27:04 | 显示全部楼层
#document提示的节点名称
举报 使用道具
iorwang 初级会员 发表于 2018-11-16 14:28:30 | 显示全部楼层
另外抓取时间我一样设置在8-10秒内,也一样的延长过时间,没效果
举报 使用道具
Fuller 管理员 发表于 2018-11-16 14:37:00 | 显示全部楼层
新版(v8.9.3)并没有修改过卡死的问题,涉及到性能的修改是连续动作的多级主题形成循环的时候解决了重复打包问题。其他修改都是功能方面的,最大的功能是抓取伪元素的内容。你说的新版本是哪一个?旧版本是哪一个?

漏抓的主题名是什么?
举报 使用道具
iorwang 初级会员 发表于 2018-11-16 18:08:15 | 显示全部楼层
你们没修改过,但确实升级了8.93,卡死和自行关闭几乎都没出现过了,之前电脑我都折腾了好几次没用,一换新版就没有那种情况了;漏抓几乎每一个都有出现,所以我说,打数机不关闭了却开始漏抓了
举报 使用道具
iorwang 初级会员 发表于 2018-11-16 18:09:22 | 显示全部楼层
难道又是我一人遇到的问题
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 01:22