快捷导航
使用滚屏连续动作爬取今日头条数据时,设置了清除老数据,但采集的时候还是有很多个excel表格,跟没设置清除老数据一样,这是咋回事啊?可以帮我看看吗?
规则名词:suibe_ydh_今日头条
举报 使用道具
| 回复

共 10 个关于本帖的回复 最后回复于 5 天前

wangyong 版主 发表于 2021-7-19 09:08:32 | 显示全部楼层
我测试了你的规则,可以看到清除老数据是成功了的,采集时页面上就可以看到加载出的内容会删除,xml文件也没有累计越来越大。
你说的多个Excel表是什么情况呢?
举报 使用道具
Fuller 管理员 发表于 2021-7-19 09:24:53 | 显示全部楼层
这个规则好像有些奇怪,昨天我测试的时候,滚屏到10几次以后,清除老数据似乎不起作用了,结果文件会越来越大,屏幕滚动条会越来越短。

今天我还会再试验几次看看
举报 使用道具
Fuller 管理员 发表于 7 天前 | 显示全部楼层
图8.png
我测试了一下,很可能跟今日头条的推荐阅读策略有关,每次清除老数据以后,新加载的数据还是含有以前阅读过的。

还可以不用连续滚屏,就是把连续动作那里的滚屏删除,而是在设置界面上,开启自动滚屏,设置滚屏次数,滚屏速度可以是负数,数值越小,滚屏越慢,慢一点可以让内容加载上来。另外,要延长超时时长,因为要滚屏很多次,要花时间。用这个滚屏设置,最后只会抓取到一个结果文件,含有所有内容
举报 使用道具
wangshift 高级会员 发表于 6 天前 | 显示全部楼层
Fuller 发表于 2021-7-20 09:41
我测试了一下,很可能跟今日头条的推荐阅读策略有关,每次清除老数据以后,新加载的数据还是含有以前阅读 ...

好的,谢谢了
举报 使用道具
wangshift 高级会员 发表于 6 天前 | 显示全部楼层
wangyong 发表于 2021-7-19 09:08
我测试了你的规则,可以看到清除老数据是成功了的,采集时页面上就可以看到加载出的内容会删除,xml文件也 ...

多个excel文件指的是采集数据的时候生成了很多个xml文件,而不是一个xml文件
举报 使用道具
wangshift 高级会员 发表于 6 天前 | 显示全部楼层
本帖最后由 wangshift 于 2021-7-21 09:58 编辑
wangshift 发表于 2021-7-21 09:50
多个excel文件指的是采集数据的时候生成了很多个xml文件,而不是一个xml文件
...
像这样
image.jpg
举报 使用道具
Fuller 管理员 发表于 6 天前 | 显示全部楼层

如果定义了连续动作的滚屏,那么滚一次,就产生一个文件。

如果不定义连续动作滚屏,而是在配置界面上开启自动滚屏,那么,只产生一个文件。

如果是没有底的网页,比如要滚几百次,那么就用连续动作滚屏

如果就像滚几十次就够了,那么用自动滚屏
举报 使用道具
wangshift 高级会员 发表于 6 天前 | 显示全部楼层
Fuller 发表于 2021-7-21 10:15
如果定义了连续动作的滚屏,那么滚一次,就产生一个文件。

如果不定义连续动作滚屏,而是在配置界面上开 ...

收到,谢谢
举报 使用道具
wangshift 高级会员 发表于 5 天前 | 显示全部楼层
Fuller 发表于 2021-7-21 10:15
如果定义了连续动作的滚屏,那么滚一次,就产生一个文件。

如果不定义连续动作滚屏,而是在配置界面上开 ...

连续动作里面的滚屏操作设置了清除老数据也会产生多个xml文件吗?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 我国旅游管理研究的知识来源与结构—基于文
  • 面向用户评论的关键词抽取研究-以美团为例
  • 对话理论视域下趣味性短视频的传播效果研究
  • 基于最小二乘法的突发事件网络舆情演化规律
  • Jupyter Notebook怎样获取安居客二手房小区

热门用户

GMT+8, 2021-7-27 14:19