页面文件采集问题

wangshift

需要采集教务处发布的文件http://jwc.suibe.edu.cn/glwj/list.htm，列表点击进去之后是一个页面，页面的底部是pdf文件的链接，因为文件链接每个页面都不一样，我想定义一个通用的文件链接地址，就自定义了文件链接的xpath“//*[@class='wp_articlecontent']//a/@href”，测试的时候能正常获取文件链接，但该自定义的XPath链接无法下载文件，这个该如何解决，我的规则名称是：suibe_EC_教务文件采集2。

maomao · 发表于 2021-10-20 16:10:14

对文件的链接不要做定位，试试。

gz51837844 · 发表于 2021-10-20 16:30:09

你试试把”文件链接“字段的自定义xpath取消掉，再测试下载文件

wangshift · 发表于 2021-10-20 16:33:41

自定义XPATH取消掉用数据管家的定位xpath可以下载数据，但这个定位是基于网页层级路径，不通用于其它页面，自定义xpath在其它页面是可以获得文件链接的，但无法下载文件。

wangyong · 发表于 2021-10-20 16:37:57

wangshift 发表于 2021-10-20 16:33
自定义XPATH取消掉用数据管家的定位xpath可以下载数据，但这个定位是基于网页层级路径，不通用于其它页面， ...

下载文件和自定义xpath无关，你之前下载不到是因为采集规则不正确，数据里采集到了多行数据，改成绝对定位就行。
另外这个页面也不需要自定xpath只需要在高级设置里勾上补全网址就可以

页面文件采集问题

共 4 个关于本帖的回复最后回复于 2021-10-20 16:37

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

页面文件采集问题

共 4 个关于本帖的回复 最后回复于 2021-10-20 16:37

推荐板块

精彩推荐

热门话题

热门用户

共 4 个关于本帖的回复最后回复于 2021-10-20 16:37