Xpath语法格式总结

经常在工作中会使用到XPath的相关知识,但每次总会在一些关键的地方不记得或不太清楚,所以免不了每次总要查一些零碎的知识,感觉即很烦又浪费时间,所以对XPath归纳及总结一下。

在这篇文章中你将能学习到:

XPath简介

XPath 路径表达式详解

XPath在DOM,XSLT及XQuery中的应用

XPath简介

XPath是W3C的一个标准。它最主要的目的是为了在XML1.0或XML1.1文档节点树中定位节点所设计。目前有XPath1.0和XPath2.0两个版本。其中Xpath1.0是1999年成为W3C标准,而XPath2.0标准的确立是在2007年。W3C关于XPath的英文详细文档请见:http://www.w3.org/TR/xpath20/ 。

XPath是一种表达式语言,它的返回值可能是节点,节点集合,原子值,以及节点和原子值的混合等。XPath2.0是XPath1.0的超集。它是对XPath1.0的扩展,它可以支持更加丰富的数据类型,并且XPath2.0保持了对XPath1.0的相对很好的向后兼容性,几乎所有的XPath2.0的返回结果都可以和XPath1.0保持一样。另外XPath2.0也是XSLT2.0和XQuery1.0的用于查询定位节点的主表达式语言。XQuery1.0是对XPath2.0的扩展。关于在XSLT和XQuery中使用XPath表达式定位节点的知识在后面的实例中会有所介绍。

在学习XPath之前你应该对XML的节点,元素,属性,原子值(文本),处理指令,注释,根节点(文档节点),命名空间以及对节点间的关系如:父(Parent),子(Children),兄弟(Sibling),先辈(Ancestor),后代(Descendant)等概念有所了解。这里不在说明。

XPath路径表达式

在本小节下面的内容中你将可以学习到:

路径表达式语法

相对/绝对路径

表达式上下文

谓词(筛选表达式)及轴的概念

运算符及特殊字符

常用表达式实例

函数及说明

这里给出一个实例Xml文件。下面的说明及实例都是基于该XML文件。

<?xml version="1.0" encoding="UTF-8"?>
<!-- edited with XMLSpy v2008 rel. 2 sp2 (http://www.altova.com) by Administrator -->
<?xml-stylesheet type="text/xsl" href="messages.xsl" rel="external nofollow" ?>
<messages>
 <message id="1">
 <sender>gukaitong@gmail.com</sender>
 <to>anonymous@gmail.com
 <group name="IT">
 <address>111@gmail.com</address>
 <address>222@gmail.com</address>
 <address>aaa@gmail.com</address>
 <address>bbb@gmail.com</address>
 <address>ccc@gmail.com</address>
 </group>
 </to>
 <subject>This is a sample</subject>
 <datetime date="2008-12-11" time="12:00:00" formatted="12/11/2008 12:00AM">2008-12-11T12:00:00Z</datetime>
 <body>
 Are you interested in?
 <attachments>
 <attachment id="1">
  <message id="0">
  <sender>anonymous@gmail.com</sender>
  <to>gukaitong@gmail.com</to>
  <body>
We strongly recommend the following books
  <books xmlns:amazon="http://www.amazon.com/books/schema">
  <amazon:book>
   <name>Professional C# 2008 </name>
   <country>USA</country>
   <price>37.79</price>
   <year>2007</year>
  </amazon:book>
  <amazon:book>
   <name>Microsoft Visual C# 2008 Step by Step </name>
   <country>USA</country>
   <price>26.39 </price>
   <year>2008</year>
  </amazon:book>
  <amazon:book>
   <name>C# in Depth</name>
   <country>USA</country>
   <price>29.69 </price>
   <year>2006</year>
  </amazon:book>
  <amazon:book>
   <name>Thinking in Java</name>
   <country>USA</country>
   <price>23.69 </price>
   <year>2004</year>
  </amazon:book>
  </books>
  </body>
  </message>
 </attachment>
 </attachments>
 </body>
 </message>
 <message id="2">
 <sender>333@gmail.com</sender>
 <to>444@gmail.com</to>
 <subject>No title</subject>
 <body/>
 </message>
</messages>

路径表达式语法:

路径 = 相对路径 | 绝对路径

XPath路径表达式 = 步进表达式 | 相对路径 "/"步进表达式。

步进表达式=轴 节点测试 谓词

说明:

其中轴表示步进表达式选择的节点和当前上下文节点间的树状关系(层次关系),节点测试指定步进表达式选择的节点名称扩展名,谓词即相当于过滤表达式以进一步过滤细化节点集。

谓词可以是0个或多个。多个多个谓词用逻辑操作符and, or连接。取逻辑非用not()函数。

请看一个典型的XPath查询表达式:/messages/message//child::node()[@id=0],其中/messages/message是路径(绝对路径以"/"开始),child::是轴表示在子节点下选择,node()是节点测试表示选择所有的节点。[@id=0]是谓词,表示选择所有有属性id并且值为0的节点。

相对路径与绝对路径:

如果"/"处在XPath表达式开头则表示文档根元素,(表达式中间作为分隔符用以分割每一个步进表达式)

如:/messages/message/subject是一种绝对路径表示法,它表明是从文档根开始查找节点。假设当前节点是在第一个message节点【/messages/message[1]】,则路径表达式subject(路径前没有"/")这种表示法称为相对路径,表明从当前节点开始查找。具体请见下面所述的"表达式上下文"。

表达式上下文(Context):

上下文其实表示一种环境。以明确当前XPath路径表达式处在什么样的环境下执行。例如同样一个路径表达式处在对根节点操作的环境和处在对某一个特定子节点操作的环境下执行所获得的结果可能是完全不一样的。也就是说XPath路径表达式计算结果取决于它所处的上下文。

XPath上下文基本有以下几种:

当前节点(./):

如./sender表示选择当前节点下的sender节点集合(等同于下面所讲的"特定元素",如:sender)
父节点(../):

如../sender表示选择当前节点的父节点下的sender节点集合

根元素(/):

如/messages表示选择从文档根节点下的messages节点集合.

根节点(/*):

这里的*是代表所有节点,但是根元素只有一个,所以这里表示根节点。/*的返回结果和/messages返回的结果一样都是

messages节点。

递归下降(//):

如当前上下文是messages节点。则//sender将返回以下结果:

/messages//sender :
<sender>gkt1980@gmail.com</sender>
<sender>111@gmail.com</sender>
<sender>333@gmail.com</sender>
/messages/message[1]//sender:
<sender>gkt1980@gmail.com</sender>
<sender>111@gmail.com</sender>

我们可以看出XPath表达式返回的结果是:从当前节点开始递归步进搜索当前节点下的所有子节点找到满足条件的节点集。

特定元素

如sender:表示选择当前节点下的sender节点集合,等同于(./sender)

注意:在执行XPath时一定要注意上下文。即当前是在哪个节点下执行XPath表达式。这在XMLDOM中很重要。如:在XMLDOM中的selectNodes,selectSingleNode方法的参数都是一个XPath表达式,此时这个XPath表达式的执行上下文就是调用这个方法的节点及它所在的环境。更多信息请参见:http://www.w3.org/TR/xpath20/

谓词(筛选表达式)及轴的概念:

XPath的谓词即筛选表达式,类似于SQL的where子句.


轴名称


结果


ancestor


选取当前节点的所有先辈(父、祖父等)


ancestor-or-self


选取当前节点的所有先辈(父、祖父等)以及当前节点本身


attribute


选取当前节点的所有属性


child


选取当前节点的所有子元素。


descendant


选取当前节点的所有后代元素(子、孙等)。


descendant-or-self


选取当前节点的所有后代元素(子、孙等)以及当前节点本身。


following


选取文档中当前节点的结束标签之后的所有节点。


namespace


选取当前节点的所有命名空间节点


parent


选取当前节点的父节点。


preceding


直到所有这个节点的父辈节点,顺序选择每个父辈节点前的所有同级节点


preceding-sibling


选取当前节点之前的所有同级节点。


self


选取当前节点。

运算符及特殊字符:


运算符/特殊字符


说明


/


此路径运算符出现在模式开头时,表示应从根节点选择。


//


从当前节点开始递归下降,此路径运算符出现在模式开头时,表示应从根节点递归下降。


.


当前上下文。


..


当前上下文节点父级。


*


通配符;选择所有元素节点与元素名无关。(不包括文本,注释,指令等节点,如果也要包含这些节点请用node()函数)


@


属性名的前缀。


@*


选择所有属性,与名称无关。


:


命名空间分隔符;将命名空间前缀与元素名或属性名分隔。


( )


括号运算符(优先级最高),强制运算优先级。


[ ]


应用筛选模式(即谓词,包括"过滤表达式"和"轴(向前/向后)")。


[ ]


下标运算符;用于在集合中编制索引。


|


两个节点集合的联合,如://messages/message/to | //messages/message/cc


-


减法。


div,


浮点除法。


and, or


逻辑运算。


mod


求余。


not()


逻辑非


=


等于


!=


不等于


特殊比较运算符


< 或者 <

<= 或者 <=

> 或者 >

>= 或者 >=

需要转义的时候必须使用转义的形式,如在XSLT中,而在XMLDOM的scripting中不需要转义。

常用表达式实例:


/


Document Root文档根.


/*


选择文档根下面的所有元素节点,即根节点(XML文档只有一个根节点)


/node()


根元素下所有的节点(包括文本节点,注释节点等)


/text()


查找文档根节点下的所有文本节点


/messages/message


messages节点下的所有message节点


/messages/message[1]


messages节点下的第一个message节点


/messages/message[1]/self::node()


第一个message节点(self轴表示自身,node()表示选择所有节点)


/messages/message[1]/node()


第一个message节点下的所有子节点


/messages/message[1]/*[last()]


第一个message节点的最后一个子节点


/messages/message[1]/[last()]


Error,谓词前必须是节点或节点集


/messages/message[1]/node()[last()]


第一个message节点的最后一个子节点


/messages/message[1]/text()


第一个message节点的所有子节点


/messages/message[1]//text()


第一个message节点下递归下降查找所有的文本节点(无限深度)


/messages/message[1] /child::node()

/messages/message[1] /node()

/messages/message[position()=1]/node()

//message[@id=1] /node()


第一个message节点下的所有子节点


//message[@id=1] //child::node()


递归所有子节点(无限深度)


//message[position()=1]/node()


选择id=1的message节点以及id=0的message节点


/messages/message[1] /parent::*


Messages节点


/messages/message[1]/body/attachments/parent::node()

/messages/message[1]/body/attachments/parent::* /messages/message[1]/body/attachments/..


attachments节点的父节点。父节点只有一个,所以node()和* 返回结果一样。

(..也表示父节点. 表示自身节点)


//message[@id=0]/ancestor::*


Ancestor轴表示所有的祖辈,父,祖父等。

向上递归


//message[@id=0]/ancestor-or-self::*


向上递归,包含自身


//message[@id=0]/ancestor::node()


对比使用*,多一个文档根元素(Document root)


/messages/message[1]/descendant::node()

//messages/message[1]//node()


递归下降查找message节点的所有节点


/messages/message[1]/sender/following::*


查找第一个message节点的sender节点后的所有同级节点,并对每一个同级节点递归向下查找。


//message[@id=1]/sender/following-sibling::*


查找id=1的message节点的sender节点的所有后续的同级节点。


//message[@id=1]/datetime/@date


查找id=1的message节点的datetime节点的date属性


//message[@id=1]/datetime[@date]

//message/datetime[attribute::date]


查找id=1的message节点的所有含有date属性的datetime节点


//message[datetime]


查找所有含有datetime节点的message节点


//message/datetime/attribute::*

//message/datetime/attribute::node()

//message/datetime/@*


返回message节点下datetime节点的所有属性节点


//message/datetime[attribute::*]

//message/datetime[attribute::node()]

//message/datetime[@*]

//message/datetime[@node()]


选择所有含有属性的datetime节点


//attribute::*


选择根节点下的所有属性节点


//message[@id=0]/body/preceding::node()


顺序选择body节点所在节点前的所有同级节点。(查找顺序为:先找到body节点的顶级节点(根节点),得到根节点标签前的所有同级节点,执行完成后继续向下一级,顺序得到该节点标签前的所有同级节点,依次类推。)

注意:查找同级节点是顺序查找,而不是递归查找。


//message[@id=0]/body/preceding-sibling::node()


顺序查找body标签前的所有同级节点。(和上例一个最大的区别是:不从最顶层开始到body节点逐层查找。我们可以理解成少了一个循环,而只查找当前节点前的同级节点)


//message[@id=1]//*[namespace::amazon]


查找id=1的所有message节点下的所有命名空间为amazon的节点。


//namespace::*


文档中的所有的命名空间节点。(包括默认命名空间xmlns:xml)


//message[@id=0]//books/*[local-name()='book']


选择books下的所有的book节点,

注意:由于book节点定义了命名空间<amazone:book>.若写成//message[@id=0]//books/book则查找不出任何节点。


//message[@id=0]//books/*[local-name()='book' and namespace-uri()='http://www.amazon.com/books/schema']


选择books下的所有的book节点,(节点名和命名空间都匹配)


//message[@id=0]//books/*[local-name()='book'][year>2006]


选择year节点值>2006的book节点


//message[@id=0]//books/*[local-name()='book'][1]/year>2006


指示第一个book节点的year节点值是否大于2006.

返回xs:boolean: true

函数及说明:

值得欣喜的是XPath函数和XSLT,XQuery等共享函数库,函数库为我们提供了功能丰富的各种函数的调用,我们也可以自定义自己的函数。这里不再对每个函数的用法逐一说明,中文的可以参考这个网站, http://www.jb51.net/w3school/xpath/index.htm

XPath在DOM,XSLT及XQuery中的应用

DOM:

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<title>XPath Test</title>
</head>
<body>
<script language="javascript" type="text/javascript">
var xmlDoc = new ActiveXObject("Microsoft.XMLDOM");
xmlDoc.async="false";
xmlDoc.load("messages.xml");
xmlDoc.setProperty("SelectionLanguage", "XPath");
 var sPath = "/messages/message[1]//books/*[local-name()='book']";
var bookNodes = xmlDoc.selectNodes(sPath);
document.write("<ul>");
for ( var i = 0; i < bookNodes.length; i++) {
document.write("<li>" + bookNodes[i].childNodes[0].text + "</li>");
}
document.write("</ul>");
</script>
</body>
</html>

注意:

我们若使用new ActiveXObject("Microsoft.XMLDOM")则需要注意的是:因为早期的XMLDOM的SelectionLanguage属性默认是正则表达式,不是XPath语言。所以需要指定这样一条语句xmlDoc.setProperty("SelectionLanguage", "XPath"); 以支持XPath查询表达式。.

若没有指定SelectionLanguage属性值为XPath则要注意以下情况:

数组下标从0开始(我们知道在XPath查询表达式中数组下标是从1开始的)不支持在XPath查询表达式中使用XPath函数。

总结

以上就是本文关于Xpath语法格式总结的全部内容,希望对大家有所帮助。感兴趣的朋友可以参阅:MYSQL updatexml()函数报错注入解析、OGNL表达式基本语法与用法详解、前端常见跨域解决方案(全)等,有什么问题可以随时留言,欢迎大家讨论交流。

时间: 2017-10-10

解析XPath语法之在C#中使用XPath的示例详解

XPath可以快速定位到Xml中的节点或者属性.XPath语法很简单,但是强大够用,它也是使用xslt的基础知识.示例Xml: 复制代码 代码如下: <?xml version="1.0" encoding="utf-8" ?><pets>  <cat color="black" weight="10">    <price>100</price>    <de

JQuery 选择器 xpath 语法应用

比如下面html代码 复制代码 代码如下: <ul> <li class="aaaa" title="ttt">li-1</li> <li class="bbbb">li-2</li> <li title="fffff">li-2</li> </ul> <div class="aaaa" title=&qu

htmlcleaner使用方法及xpath语法初探

在编程的时候或者写网络爬虫的时候,经常需要对html进行解析,抽取其中有用的数据.一款好的工具是特别有用的,能提供很多的帮助,网上有很多这样的工具,比如:htmlcleaner.htmlparser 经使用比较:感觉 htmlcleaner 比 htmlparser 好用,尤其是htmlcleaner 的 xpath特好用. 下面针对htmlcleaner进行举例说明,需求为:取出title,name="my_href" 的链接,div的class="d_1″下的所有li内容

Python爬虫基础之XPath语法与lxml库的用法详解

前言 本来打算写的标题是XPath语法,但是想了一下Python中的解析库lxml,使用的是Xpath语法,同样也是效率比较高的解析方法,所以就写成了XPath语法和lxml库的用法 XPath 即为 XML 路径语言,它是一种用来确定 XML(标准通用标记语言的子集)文档中某部分位置的语言. XPath 基于 XML 的树状结构,提供在数据结构树中找寻节点的能力. XPath 同样也支持HTML. XPath 是一门小型的查询语言. python 中 lxml库 使用的是 Xpath 语法,是

Python3 xml.etree.ElementTree支持的XPath语法详解

xml.etree.ElementTree可以通过支持的有限的XPath表达式来定位元素. 语法 ElementTree支持的语法如下: 语法 说明 tag 查找所有具有指定名称tag的子元素.例如:country表示所有名为country的元素,country/rank表示所有名为country的元素下名为rank的元素. * 查找所有元素.如:*/rank表示所有名为rank的孙子元素. . 选择当前元素.在xpath表达式开头使用,表示相对路径. // 选择当前元素下所有级别的所有子元素.

Ruby基础语法初探

创建字符串对象有多种途径,最常用的可能是使用字符串字面量(literals),即一组单引号或双引号之间的字符序列.这两种形式的区别在于,当构造字面量时,Ruby对字符串所做处理的多少有所不同.Ruby对单引号串处理得很少.除了极少的一些例外.键入到字符串字面量的内容就构成了这个字符串的值. Ruby对双引号字符串有更多的处理.首先,它寻找以反斜线开始的序列,并用二进制值替换它们.其中最常见的是\n,它会被回车换行符替换掉.当一个包含回车换行符的字符串输出时,\n会强制换行. puts "And

XSLT轻松入门第四章:XPath的语法

4.XPath的语法 我们在前面已经提到过,XPath是用来帮助XSLT在XML源文档中查找定位信息的语言.在实际使用过程中,XPath和XSLT总是混在一起使用,在上面一章的语法例子中我们已经有使用到XPath的语法,只是没有明确点出.但W3C将它们分成两个标准,所以我们也将它们拆成两章来讲解. 4.XPath的语法 4.1 当前位置 4.2 寻址操作 4.3 运算符 4.4 功能函数 4.1 当前位置 当我们使用XSLT处理XML源文档是,我们用Context来表示当前正在被模板处理的节点位

PHP使用xpath解析XML的方法详解

本文实例讲述了PHP使用xpath解析XML的方法.分享给大家供大家参考,具体如下: XML文件在PHP网站开发的轻量级应用中使用非常广泛,而PHP解析和读取XML文件的方式有很多种,比如JS DOM.SimpleXml.Xpath等方式解析XML文件,今天来讲讲在PHP中使用Xpath解析XML的实例,同时通过Xpath解析XML的实例来介绍部分基础的Xpath语法. Xpath是什么? Xapth主要用来在XML文档中查询信息的工具,通过使用路径表达式可以解析XML文件,读取XML文件中的数

Python中利用xpath解析HTML的方法

在进行网页抓取的时候,分析定位html节点是获取抓取信息的关键,目前我用的是lxml模块(用来分析XML文档结构的,当然也能分析html结构), 利用其lxml.html的xpath对html进行分析,获取抓取信息. 首先,我们需要安装一个支持xpath的python库.目前在libxml2的网站上被推荐的python binding是lxml,也有beautifulsoup,不嫌麻烦的话还可以自己用正则表达式去构建,本文以lxml为例讲解. 假设有如下的HTML文档: <html> <