使用滚屏连续动作爬取今日头条数据时,设置了清除老数据,但采集的时候还是有很多个excel表格,跟没设置清除老数据一样,这是咋回事啊?可以帮我看看吗?
规则名词:suibe_ydh_今日头条
举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 2021-7-22 18:05

wangyong 版主 发表于 2021-7-19 09:08:32 | 显示全部楼层
我测试了你的规则,可以看到清除老数据是成功了的,采集时页面上就可以看到加载出的内容会删除,xml文件也没有累计越来越大。
你说的多个Excel表是什么情况呢?
举报 使用道具
Fuller 管理员 发表于 2021-7-19 09:24:53 | 显示全部楼层
这个规则好像有些奇怪,昨天我测试的时候,滚屏到10几次以后,清除老数据似乎不起作用了,结果文件会越来越大,屏幕滚动条会越来越短。

今天我还会再试验几次看看
举报 使用道具
Fuller 管理员 发表于 2021-7-20 09:41:07 | 显示全部楼层
图8.png
我测试了一下,很可能跟今日头条的推荐阅读策略有关,每次清除老数据以后,新加载的数据还是含有以前阅读过的。

还可以不用连续滚屏,就是把连续动作那里的滚屏删除,而是在设置界面上,开启自动滚屏,设置滚屏次数,滚屏速度可以是负数,数值越小,滚屏越慢,慢一点可以让内容加载上来。另外,要延长超时时长,因为要滚屏很多次,要花时间。用这个滚屏设置,最后只会抓取到一个结果文件,含有所有内容
举报 使用道具
wangshift 金牌会员 发表于 2021-7-21 09:48:57 | 显示全部楼层
Fuller 发表于 2021-7-20 09:41
我测试了一下,很可能跟今日头条的推荐阅读策略有关,每次清除老数据以后,新加载的数据还是含有以前阅读 ...

好的,谢谢了
举报 使用道具
wangshift 金牌会员 发表于 2021-7-21 09:50:43 | 显示全部楼层
wangyong 发表于 2021-7-19 09:08
我测试了你的规则,可以看到清除老数据是成功了的,采集时页面上就可以看到加载出的内容会删除,xml文件也 ...

多个excel文件指的是采集数据的时候生成了很多个xml文件,而不是一个xml文件
举报 使用道具
wangshift 金牌会员 发表于 2021-7-21 09:55:56 | 显示全部楼层
本帖最后由 wangshift 于 2021-7-21 09:58 编辑
wangshift 发表于 2021-7-21 09:50
多个excel文件指的是采集数据的时候生成了很多个xml文件,而不是一个xml文件
...
像这样
image.jpg
举报 使用道具
Fuller 管理员 发表于 2021-7-21 10:15:23 | 显示全部楼层

如果定义了连续动作的滚屏,那么滚一次,就产生一个文件。

如果不定义连续动作滚屏,而是在配置界面上开启自动滚屏,那么,只产生一个文件。

如果是没有底的网页,比如要滚几百次,那么就用连续动作滚屏

如果就像滚几十次就够了,那么用自动滚屏
举报 使用道具
wangshift 金牌会员 发表于 2021-7-21 10:57:32 | 显示全部楼层
Fuller 发表于 2021-7-21 10:15
如果定义了连续动作的滚屏,那么滚一次,就产生一个文件。

如果不定义连续动作滚屏,而是在配置界面上开 ...

收到,谢谢
举报 使用道具
wangshift 金牌会员 发表于 2021-7-22 17:59:42 | 显示全部楼层
Fuller 发表于 2021-7-21 10:15
如果定义了连续动作的滚屏,那么滚一次,就产生一个文件。

如果不定义连续动作滚屏,而是在配置界面上开 ...

连续动作里面的滚屏操作设置了清除老数据也会产生多个xml文件吗?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 08:51