5 10089

怎样设置自定义xpath

ym 于 2015-10-22 12:15 发表 [复制链接]
常见问题 > 制作规则—常见问题导航 > 自定义xpath > 怎样设置自定义xpath

设置自定义XPath的步骤很简单,难在选择XPath的定位起点,因为这里要求输入相对的XPath路径。

找到定位起点
1)给整理箱的所有抓取内容作内容映射(先不要自定XPath)
2)点击测试按钮,在输出窗口中转到“数据规则”页签
3)找到这个抓取内容的XPath,在抓取规则中,所有的抓取内容的XPath都是相对的,起点要么是./,要么是*。自定义XPath的时候,推荐用./开头,而这个.是哪个节点?就是容器节点。当然直接相对容器节点写html DOM节点名也没有问题
4)自定义XPath的时候也要记住容器节点是哪个,自己写的XPath一定是相对于容器节点的

设置自定义XPath的步骤
1)双击抓取内容,弹出窗口里选择高级设置,再选择自定义xpath
Xpath设置.png

2)选择文本内容和兼做定位,把xpath输入到内容表达式,点击保存,然后测试一下,看看有没有语法错误,没有报错且能看到数据就可以用了。
Xpath设置2.png



举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2016-10-24 22:44

shenzhenwan20 初级会员 发表于 2015-10-22 12:23:11 | 显示全部楼层
学习了
举报 使用道具
habout632 初级会员 发表于 2015-10-22 19:15:47 | 显示全部楼层
请问抓取内容表达式那里应该怎么填,填入什么?
举报 使用道具
ym 版主 发表于 2015-10-23 09:37:37 | 显示全部楼层
habout632 发表于 2015-10-22 19:15
请问抓取内容表达式那里应该怎么填,填入什么?

要填目标信息的xpath路径,就是要告诉爬虫怎样提取到目标信息,需要先去学习一下xpath的基本知识点
举报 使用道具
habout632 初级会员 发表于 2015-10-23 10:31:39 | 显示全部楼层
知道了,谢谢
举报 使用道具
Fuller 管理员 发表于 2016-10-24 22:44:34 | 显示全部楼层
设置自定义XPath最麻烦的一点,也是最值得注意的一点就是:XPath的起点应该相对于容器节点,而不是/html或者//这种从html定点开始的xpath,虽然很多时候,这样的xpath也能抓到数据。

怎样确定起点?这个帖子的沙发和板凳说了一种复杂情况:http://www.gooseeker.com/doc/thread-3846-1-1.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 15:55