需要采集教务处发布的文件http://jwc.suibe.edu.cn/glwj/list.htm,列表点击进去之后是一个页面,页面的底部是pdf文件的链接,因为文件链接每个页面都不一样,我想定义一个通用的文件链接地址,就自定义了文件链接的xpath“//*[@class='wp_articlecontent']//a/@href”,测试的时候能正常获取文件链接,但该自定义的XPath链接无法下载文件,这个该如何解决,我的规则名称是:suibe_EC_教务文件采集2
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2021-10-20 16:37

沙发
maomao 论坛元老 发表于 2021-10-20 16:10:14 | 只看该作者
对文件的链接不要做定位,试试。
举报 使用道具
板凳
gz51837844 管理员 发表于 2021-10-20 16:30:09 | 只看该作者
你试试把”文件链接“字段的自定义xpath取消掉,再测试下载文件
举报 使用道具
地板
wangshift 金牌会员 发表于 2021-10-20 16:33:41 | 只看该作者
自定义XPATH取消掉用数据管家的定位xpath可以下载数据,但这个定位是基于网页层级路径,不通用于其它页面,自定义xpath在其它页面是可以获得文件链接的,但无法下载文件。
举报 使用道具
5#
wangyong 版主 发表于 2021-10-20 16:37:57 | 只看该作者
wangshift 发表于 2021-10-20 16:33
自定义XPATH取消掉用数据管家的定位xpath可以下载数据,但这个定位是基于网页层级路径,不通用于其它页面, ...

下载文件和自定义xpath无关,你之前下载不到是因为采集规则不正确,数据里采集到了多行数据,改成绝对定位就行。
另外这个页面也不需要自定xpath只需要在高级设置里勾上补全网址就可以
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-2 05:53