本帖最后由 iorwang 于 2018-11-16 14:31 编辑
一个是升级后漏采严重,虽然打数机不会自动关闭了,但是替代的是漏抓,只要线索数量超过100条,漏采机率特别大,几乎有10-20的面积,在提示抓取完后会发现抓取中的数量比较多;第二个是抓取时浏览器的加载问题,一个网页在软件内打开普通浏览和电脑浏览器中都可以加载出来所有内容,速度也快,但在打数机里面加载速度偏慢一些,而且内容图片也加载不完全,或者内容中的表格文字部分,我抓取的是二级线索的内容页面,问题出现介绍内容中,虽然不经常出现加载问题但还是影响内容的采集;新版算是解决了打数机自行结束的问题了,但规则方面我发现匹配失败的情况增多了,出错的页面我也看了,结构页面和内容是一样的,id和class名也是一样的,定位方式我也是换过不少次,但还是出现了匹配失败的情况,而且单独给出错的页面重新做规则(同样的定位和映射)却可以抓下来,但现在还不是清楚到底是网页结构还是定位的问题了,出错的页面提示找不到节点(不论失败与否的网页),同时几乎所有内容都找不到,但在网页里面却还有标注;要说不一样多多少是字段没有的情况,但这也不可能会影响抓取的啊,我也没有为变化的字段做定位和关键内容,就连“列表”和内容做不做定位情况都一样,但你看了采集的节点也没有什么不同,而且做规则的时候也没有提示过结构不同;还有修改保存规则依然存在需要多次保存和修改才能保存成功,在新版最好的就是解决了关闭问题,卡死的情况也很少有了,但其它的多少还是有发生
|
|
|
|
|
共 6 个关于本帖的回复 最后回复于 2018-11-16 18:09