想请问一下,因为网页评论中有read more,而我需要完整的评论,所以设置了以下的动作,并且由于该网站的评论,只要点击一下,则所有评论均展开,故在交互位置那里设置了[1],但最后excel导出的结果又有read more前的也有read more后的,但是read more后的的评论内容部分却是空白,这是为什么呢?


参考教程:https://www.gooseeker.com/doc/thread-13170-1-1.html
https://www.gooseeker.com/doc/article-288-1.html




举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2024-1-15 09:26

沙发
Fuller 管理员 发表于 2024-1-10 23:35:40 | 只看该作者

先保存任务

然后,在定义规则状态,右上角是功能菜单,点击上图第一个箭头指向的按钮,就能取消内容定位状态,取消以后,用鼠标点击网页上的“展开”链接,把收缩的内容都展开。最后立即恢复内容定位状态,不然的话,鼠标误点某个链接,网页就跳转走了。

然后,使用上图第二个箭头指向的分析页面菜单,分析成功后,点击整理箱的测试按钮(如下图),看看能不能采集到展开后的内容。我估计展开后的内容可能修改了html结构,要重新做内容映射。

如果需要重新做内容映射的话,我建议点击前和点击后使用不同的任务名


举报 使用道具
板凳
HeatherZhou 初级会员 发表于 2024-1-11 20:28:35 | 只看该作者
Fuller 发表于 2024-1-10 23:35
先保存任务

然后,在定义规则状态,右上角是功能菜单,点击上图第一个箭头指向的按钮,就能取消内容定位 ...

还想请问一下,这样做了之后,我导出来的数据都重复了一遍,即一组数据输出了两遍,这是为什么呢?
举报 使用道具
地板
Fuller 管理员 发表于 2024-1-12 11:07:39 | 只看该作者
HeatherZhou 发表于 2024-1-11 20:28
还想请问一下,这样做了之后,我导出来的数据都重复了一遍,即一组数据输出了两遍,这是为什么呢?
...

如果是采集公开网站,不需要账号登录的话,可以把你定义的任务名发出来,我可以测试检查一下。

重复一遍的话,会不会是点击前采集了一遍,点击后又采集了一遍。另外,会不会在点击前,网页上已经有完整的内容了,只是没有显示出来?如果是这样的话,就不要执行点击动作了。有些内容没有显示出来,没法通过直观标注的方法指定要采集的内容,但是可以浏览网页的HTML DOM树,找到隐藏的内容,在DOM树上用鼠标右键菜单做内容映射来指定要采集的内容
举报 使用道具
5#
HeatherZhou 初级会员 发表于 2024-1-14 20:28:21 | 只看该作者
Fuller 发表于 2024-1-12 11:07
如果是采集公开网站,不需要账号登录的话,可以把你定义的任务名发出来,我可以测试检查一下。

重复一遍 ...

非常感谢!是这样的,我删除这个动作之后就没有问题了。
此外,还想问一下,就是这个网页首先点开的时候默认不是这个all languages,但是我想要爬取所有的评论,而不只是英文评论,这怎么弄呢?我尝试设置动作,但是最后爬出来的结果还是只有英文,即动作没有执行,后来做了调整之后,又变成每一页都执行,又出现重复了,再尝试了上面的这个方式时,发现依旧不行,所以不知道怎么弄了。谢谢!



举报 使用道具
6#
Fuller 管理员 发表于 2024-1-15 09:26:12 | 只看该作者
HeatherZhou 发表于 2024-1-14 20:28
非常感谢!是这样的,我删除这个动作之后就没有问题了。
此外,还想问一下,就是这个网页首先点开的时候 ...

可以试试这两个方案:方案一:定义一个新任务,专门负责点击选择语言,其下一级任务就是你已经定义好的采集数据的任务
方案二:选择语言的那个动作不要选“必做”,如果不选必做,是要等待这个动作的后续动作都完整做了一轮以后才做这个动作

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-29 10:43