首页 > 技术文章 > d、解析库的使用

simpleness 2021-03-31 07:43 原文

解析库的使用

1、使用Beautiful Soup

1.1、简介

简单来说, Beautiful Soup 就是 Python 的一个 HTML 或 XML 的解析库,可以用它来方便地从网 页中提取数据。

1.2、解析器

image-20200825223725505

1.3、节点选择器

直接调用节点的名称就可以选择节点元素,再调用 string 属性就可以得到节点内的文本了,这种选择方式速度非常快。 如果单个节点结构层次非常清晰,可以选用这种方式来解析。

1.3.1、基本元素

image-20200825230214753

1.3.2、子代标签

image-20200825231540275

1.3.3、父代标签

image-20200825231634168

1.3.4、兄弟标签

image-20200825231758187

1.4、方法选择器

1.4.1、 find_all()

find_all,顾名思义,就是查询所有符合条件的元素。 给它传入一些属性或文本,就可以得到符合条件的元素列表。

find_all(narne , attrs , recursive , text , **kwargs) 

name:根据节点名来查询元素

attr:根据属性来查询元素

text:用来匹配节点的文本,传入的形式可以是字符串,可以是正则表达式对象。

1.4.2、find()

返回的是符合条件的单个元素,也就是第一个匹配的元素。

1.4.3、其他查询方法

  • find_parents ()和 find_parent(): 前者返回所有祖先节点 , 后者返回直接父节点。
  • find_next_siblings()和find_next_ sibling(): 前者返回后面所有的兄弟节点, 后者返回后面第一个兄弟节点。
  • find_previous_siblings()和find_previous_sibling(): 前者返回前面所有的兄弟节点, 后者返回前面第一个兄弟节点。
  • find_all_next()和 find_next(): 前者返回节点后所有符合条件的节点,后者返回第一个符合条件的节点。
  • find_all_previous()和 find_previous() :前者返回节点后所有符合条件的节点,后者返回第 一个符合条件的节点。

1.5、CSS选择器

使用 css 选择器时,只需要调用 select()方法,传人相应的 css 选择器即可。

2、正则表达式

2.1 正则元字符

正则表达式是处理字符串的强大工具,它有向己特定的语法结构,有了它,实现字符串的检索、替换、匹配验证等

在线验证正则的网址:https://tool.oschina.net/regex/

正则匹配规则:https://www.runoob.com/regexp/regexp-metachar.html

字符 描述
\ 将下一个字符标记为一个特殊字符、或一个原义字符、或一个 向后引用、或一个八进制转义符。例如,'n' 匹配字符 "n"。'\n' 匹配一个换行符。序列 '\' 匹配 "" 而 "(" 则匹配 "("。
^ 匹配输入字符串的开始位置。如果设置了 RegExp 对象的 Multiline 属性,^ 也匹配 '\n' 或 '\r' 之后的位置。
$ 匹配输入字符串的结束位置。如果设置了RegExp 对象的 Multiline 属性,$ 也匹配 '\n' 或 '\r' 之前的位置。
* 匹配前面的子表达式零次或多次。例如,zo* 能匹配 "z" 以及 "zoo"。* 等价于{0,}。
+ 匹配前面的子表达式一次或多次。例如,'zo+' 能匹配 "zo" 以及 "zoo",但不能匹配 "z"。+ 等价于 {1,}。
? 匹配前面的子表达式零次或一次。例如,"do(es)?" 可以匹配 "do" 或 "does" 。? 等价于 {0,1}。
{n} n 是一个非负整数。匹配确定的 n 次。例如,'o{2}' 不能匹配 "Bob" 中的 'o',但是能匹配 "food" 中的两个 o。
{n,} n 是一个非负整数。至少匹配n 次。例如,'o{2,}' 不能匹配 "Bob" 中的 'o',但能匹配 "foooood" 中的所有 o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于 'o*'。
{n,m} m 和 n 均为非负整数,其中n <= m。最少匹配 n 次且最多匹配 m 次。例如,"o{1,3}" 将匹配 "fooooood" 中的前三个 o。'o{0,1}' 等价于 'o?'。请注意在逗号和两个数之间不能有空格。
? 当该字符紧跟在任何一个其他限制符 (*, +, ?, {n}, {n,}, {n,m}) 后面时,匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串,而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如,对于字符串 "oooo",'o+?' 将匹配单个 "o",而 'o+' 将匹配所有 'o'。
. 匹配除换行符(\n、\r)之外的任何单个字符。要匹配包括 '\n' 在内的任何字符,请使用像"(.|\n)"的模式。
(pattern) 匹配 pattern 并获取这一匹配。所获取的匹配可以从产生的 Matches 集合得到,在VBScript 中使用 SubMatches 集合,在JScript 中则使用 $0…$9 属性。要匹配圆括号字符,请使用 '(' 或 ')'。
(?:pattern) 匹配 pattern 但不获取匹配结果,也就是说这是一个非获取匹配,不进行存储供以后使用。这在使用 "或" 字符 (|) 来组合一个模式的各个部分是很有用。例如, 'industr(?:y|ies) 就是一个比 'industry|industries' 更简略的表达式。
(?=pattern) 正向肯定预查(look ahead positive assert),在任何匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如,"Windows(?=95|98|NT|2000)"能匹配"Windows2000"中的"Windows",但不能匹配"Windows3.1"中的"Windows"。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。
(?!pattern) 正向否定预查(negative assert),在任何不匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如"Windows(?!95|98|NT|2000)"能匹配"Windows3.1"中的"Windows",但不能匹配"Windows2000"中的"Windows"。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。
(?<=pattern) 反向(look behind)肯定预查,与正向肯定预查类似,只是方向相反。例如,"`(?<=95
(?<!pattern) 反向否定预查,与正向否定预查类似,只是方向相反。例如"(?"能匹配"3.1Windows"中的"Windows",但不能匹配"2000Windows"中的"Windows`"。
x|y 匹配 x 或 y。例如,'z|food' 能匹配 "z" 或 "food"。'(z|f)ood' 则匹配 "zood" 或 "food"。
[xyz] 字符集合。匹配所包含的任意一个字符。例如, '[abc]' 可以匹配 "plain" 中的 'a'。
[^xyz] 负值字符集合。匹配未包含的任意字符。例如, '[^abc]' 可以匹配 "plain" 中的'p'、'l'、'i'、'n'。
[a-z] 字符范围。匹配指定范围内的任意字符。例如,'[a-z]' 可以匹配 'a' 到 'z' 范围内的任意小写字母字符。
[^a-z] 负值字符范围。匹配任何不在指定范围内的任意字符。例如,'[^a-z]' 可以匹配任何不在 'a' 到 'z' 范围内的任意字符。
\b 匹配一个单词边界,也就是指单词和空格间的位置。例如, 'er\b' 可以匹配"never" 中的 'er',但不能匹配 "verb" 中的 'er'。
\B 匹配非单词边界。'er\B' 能匹配 "verb" 中的 'er',但不能匹配 "never" 中的 'er'。
\cx 匹配由 x 指明的控制字符。例如, \cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则,将 c 视为一个原义的 'c' 字符。
\d 匹配一个数字字符。等价于 [0-9]。
\D 匹配一个非数字字符。等价于 [^0-9]。
\f 匹配一个换页符。等价于 \x0c 和 \cL。
\n 匹配一个换行符。等价于 \x0a 和 \cJ。
\r 匹配一个回车符。等价于 \x0d 和 \cM。
\s 匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。
\S 匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
\t 匹配一个制表符。等价于 \x09 和 \cI。
\v 匹配一个垂直制表符。等价于 \x0b 和 \cK。
\w 匹配字母、数字、下划线。等价于'[A-Za-z0-9_]'。
\W 匹配非字母、数字、下划线。等价于 '[^A-Za-z0-9_]'。
\xn 匹配 n,其中 n 为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如,'\x41' 匹配 "A"。'\x041' 则等价于 '\x04' & "1"。正则表达式中可以使用 ASCII 编码。
\num 匹配 num,其中 num 是一个正整数。对所获取的匹配的引用。例如,'(.)\1' 匹配两个连续的相同字符。
\n 标识一个八进制转义值或一个向后引用。如果 \n 之前至少 n 个获取的子表达式,则 n 为向后引用。否则,如果 n 为八进制数字 (0-7),则 n 为一个八进制转义值。
\nm 标识一个八进制转义值或一个向后引用。如果 \nm 之前至少有 nm 个获得子表达式,则 nm 为向后引用。如果 \nm 之前至少有 n 个获取,则 n 为一个后跟文字 m 的向后引用。如果前面的条件都不满足,若 n 和 m 均为八进制数字 (0-7),则 \nm 将匹配八进制转义值 nm。
\nml 如果 n 为八进制数字 (0-3),且 m 和 l 均为八进制数字 (0-7),则匹配八进制转义值 nml。
\un 匹配 n,其中 n 是一个用四个十六进制数字表示的 Unicode 字符。例如, \u00A9 匹配版权符号 (?)。
修饰符 描述
re.I 使匹配对大小写不敏感
re.L 做本地化识别(locale-aware)匹配
re.M 多行匹配,影响 ^ 和 $
re.S 使 . 匹配包括换行在内的所有字符
re.U 根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B.
re.X 该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。

2.2 match()

re.match 尝试从字符串的起始位置匹配一个模式

re.match(pattern, string, flags=0)

pattern:匹配的正则表达式
string:要匹配的字符串。
flags:修饰符,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等

匹配成功re.match方法返回一个匹配的对象,否则返回None。

我们可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式

匹配对象方法 描述
group(num=0) 匹配的整个表达式的字符串,group() 可以一次输入多个组号,在这种情况下它将返回一个包含那些组所对应值的元组。
groups() 返回一个包含所有小组字符串的元组,从 1 到 所含的小组号。

re.search 扫描整个字符串并返回第一个成功的匹配

re.search(pattern, string, flags=0)

pattern:匹配的正则表达式
string:要匹配的字符串。
flags:标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。

匹配成功re.search方法返回一个匹配的对象,否则返回None。

我们可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式

匹配对象方法 描述
group(num=0) 匹配的整个表达式的字符串,group() 可以一次输入多个组号,在这种情况下它将返回一个包含那些组所对应值的元组。
groups() 返回一个包含所有小组字符串的元组,从 1 到 所含的小组号。

2.4 sub()

Python 的re模块提供了re.sub用于替换字符串中的匹配项。

re.sub(pattern, repl, string, count=0, flags=0)

pattern : 正则中的模式字符串。
repl : 替换的字符串,也可为一个函数。
string : 要被查找替换的原始字符串。
count : 模式匹配后替换的最大次数,默认 0 表示替换所有的匹配。
flags : 编译时用的匹配模式,数字形式。

2.5 compile()

compile 函数用于编译正则表达式,生成一个正则表达式( Pattern )对象,供 match() 和 search() 这两个函数使用。

re.compile(pattern[, flags])

pattern : 一个字符串形式的正则表达式
flags 可选,表示匹配模式

当上方的函数匹配成功时返回一个 Match 对象,其中:

group([group1, …]) 方法用于获得一个或多个分组匹配的字符串,当要获得整个匹配的子串时,可直接使用 group() 或 group(0);
start([group]) 方法用于获取分组匹配的子串在整个字符串中的起始位置(子串第一个字符的索引),参数默认值为 0;
end([group]) 方法用于获取分组匹配的子串在整个字符串中的结束位置(子串最后一个字符的索引+1),参数默认值为 0;
span([group]) 方法返回 (start(group), end(group))。

2.6 findall()

在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表。

注意: match 和 search 是匹配一次 findall 匹配所有。

re.findall(pattern, string, flags=0)
或
pattern.findall(string[, pos[, endpos]])

pattern:匹配模式。
string:待匹配的字符串。
pos:可选参数,指定字符串的起始位置,默认为 0。
endpos:可选参数,指定字符串的结束位置,默认为字符串的长度。

2.7 finditer()

和 findall 类似,在字符串中找到正则表达式所匹配的所有子串,并把它们作为一个迭代器返回。

re.finditer(pattern, string, flags=0)

pattern:匹配的正则表达式
string:要匹配的字符串。
flags:标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。

2.8 split()

split 方法按照能够匹配的子串将字符串分割后返回列表

re.split(pattern, string[, maxsplit=0, flags=0])

pattern:匹配的正则表达式
string:要匹配的字符串。
maxsplit:分隔次数,maxsplit=1 分隔一次,默认为 0,不限制次数。
flags:标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。

2.9 re.RegexObject

re.compile() 返回 RegexObject 对象。

2.10 re.MatchObject

group() 返回被 RE 匹配的字符串。

  • start() 返回匹配开始的位置
  • end() 返回匹配结束的位置
  • span() 返回一个元组包含匹配 (开始,结束) 的位置

4、xpath

xpath属于xml/html解析数据的一种方式, 基于元素(Element)的树形结构(Node > Element)。选择某一元素时,根据元素的路径选择,如 /html/head/title获取<title>标签。

参考文档:https://www.runoob.com/xpath/xpath-tutorial.html

4.1选取节点

XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。 下面列出了最有用的路径表达式:

表达式 描述
nodename 选取此节点的所有子节点。
/ 从根节点选取。
// 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。
. 选取当前节点。
.. 选取当前节点的父节点。
@ 选取属性。

在下面的表格中,我们已列出了一些路径表达式以及表达式的结果:

路径表达式 结果
bookstore 选取 bookstore 元素的所有子节点。
/bookstore 选取根元素 bookstore。注释:假如路径起始于正斜杠( / ),则此路径始终代表到某元素的绝对路径!
bookstore/book 选取属于 bookstore 的子元素的所有 book 元素。
//book 选取所有 book 子元素,而不管它们在文档中的位置。
bookstore//book 选择属于 bookstore 元素的后代的所有 book 元素,而不管它们位于 bookstore 之下的什么位置。
//@lang 选取名为 lang 的所有属性。

4.2谓语(Predicates)

谓语用来查找某个特定的节点或者包含某个指定的值的节点。

谓语被嵌在方括号中。

在下面的表格中,我们列出了带有谓语的一些路径表达式,以及表达式的结果:

路径表达式 结果
/bookstore/book[1] 选取属于 bookstore 子元素的第一个 book 元素。
/bookstore/book[last()] 选取属于 bookstore 子元素的最后一个 book 元素。
/bookstore/book[last()-1] 选取属于 bookstore 子元素的倒数第二个 book 元素。
/bookstore/book[position()❤️] 选取最前面的两个属于 bookstore 元素的子元素的 book 元素。
//title[@lang] 选取所有拥有名为 lang 的属性的 title 元素。
//title[@lang='eng'] 选取所有 title 元素,且这些元素拥有值为 eng 的 lang 属性。
/bookstore/book[price>35.00] 选取 bookstore 元素的所有 book 元素,且其中的 price 元素的值须大于 35.00。
/bookstore/book[price>35.00]//title 选取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值须大于 35.00。

4.3 选取未知节点

XPath 通配符可用来选取未知的 XML 元素。

通配符 描述
* 匹配任何元素节点。
@* 匹配任何属性节点。
node() 匹配任何类型的节点。

在下面的表格中,我们列出了一些路径表达式,以及这些表达式的结果:

路径表达式 结果
/bookstore/* 选取 bookstore 元素的所有子元素。
//* 选取文档中的所有元素。
//title[@*] 选取所有带有属性的 title 元素。

4.4 选取若干路径

通过在路径表达式中使用"|"运算符,您可以选取若干个路径。

在下面的表格中,我们列出了一些路径表达式,以及这些表达式的结果:

路径表达式 结果
//book/title | //book/price 选取 book 元素的所有 title 和 price 元素。
//title | //price 选取文档中的所有 title 和 price 元素。
/bookstore/book/title | //price 选取属于 bookstore 元素的 book 元素的所有 title 元素,以及文档中所有的 price 元素。

4.5 XPath 运算符

下面列出了可用在 XPath 表达式中的运算符:

运算符 描述 实例 返回值
| 计算两个节点集 //book | //cd 返回所有拥有 book 和 cd 元素的节点集
+ 加法 6 + 4 10
- 减法 6 - 4 2
* 乘法 6 * 4 24
div 除法 8 div 4 2
= 等于 price=9.80 如果 price 是 9.80,则返回 true。如果 price 是 9.90,则返回 false。
!= 不等于 price!=9.80 如果 price 是 9.90,则返回 true。如果 price 是 9.80,则返回 false。
< 小于 price<9.80 如果 price 是 9.00,则返回 true。如果 price 是 9.90,则返回 false。
<= 小于或等于 price<=9.80 如果 price 是 9.00,则返回 true。如果 price 是 9.90,则返回 false。
> 大于 price>9.80 如果 price 是 9.90,则返回 true。如果 price 是 9.80,则返回 false。
>= 大于或等于 price>=9.80 如果 price 是 9.90,则返回 true。如果 price 是 9.70,则返回 false。
or price=9.80 or price=9.70 如果 price 是 9.80,则返回 true。如果 price 是 9.50,则返回 false。
and price>9.00 and price<9.90 如果 price 是 9.80,则返回 true。如果 price 是 8.50,则返回 false。
mod 计算除法的余数 5 mod 2 1

4.6 存取函数

名称 说明
fn:node-name(node) 返回参数节点的节点名称。
fn:nilled(node) 返回是否拒绝参数节点的布尔值。
fn:data(item.item,...) 接受项目序列,并返回原子值序列。
fn:base-uri()fn:base-uri(node) 返回当前节点或指定节点的 base-uri 属性的值。
fn:document-uri(node) 返回指定节点的 document-uri 属性的值。

4.7 错误和跟踪函数

名称 说明
fn:error()fn:error(error)fn:error(error,description)fn:error(error,description,error-object) 例子:error(fn:QName('http://example.com/test', 'err:toohigh'), 'Error: Price is too high')结果:向外部处理环境返回 http://example.com/test#toohigh 以及字符串 "Error: Price is too high"。
fn:trace(value,label) 用于对查询进行 debug。

4.8 有关数值的函数

名称 说明
fn:number(arg) 返回参数的数值。参数可以是布尔值、字符串或节点集。例子:number('100')结果:100
fn:abs(num) 返回参数的绝对值。例子:abs(3.14)结果:3.14例子:abs(-3.14)结果:3.14
fn:ceiling(num) 返回大于 num 参数的最小整数。例子:ceiling(3.14)结果:4
fn:floor(num) 返回不大于 num 参数的最大整数。例子:floor(3.14)结果:3
fn:round(num) 把 num 参数舍入为最接近的整数。例子:round(3.14)结果:3
fn:round-half-to-even() 例子:round-half-to-even(0.5)结果:0例子:round-half-to-even(1.5)结果:2例子:round-half-to-even(2.5)结果:2

4.9 有关字符串的函数

名称 说明
fn:string(arg) 返回参数的字符串值。参数可以是数字、逻辑值或节点集。例子:string(314)结果:"314"
fn:codepoints-to-string(int,int,...) 根据代码点序列返回字符串。例子:codepoints-to-string(84, 104, 233, 114, 232, 115, 101)结果:'Thérèse'
fn:string-to-codepoints(string) 根据字符串返回代码点序列。例子:string-to-codepoints("Thérèse")结果:84, 104, 233, 114, 232, 115, 101
fn:codepoint-equal(comp1,comp2) 根据 Unicode 代码点对照,如果 comp1 的值等于 comp2 的值,则返回 true。(http://www.w3.org/2005/02/xpath-functions/collation/codepoint),否则返回 false。
fn:compare(comp1,comp2)fn:compare(comp1,comp2,collation) 如果 comp1 小于 comp2,则返回 -1。如果 comp1 等于 comp2,则返回 0。如果 comp1 大于 comp2,则返回 1。(根据所用的对照规则)。例子:compare('ghi', 'ghi')结果:0
fn:concat(string,string,...) 返回字符串的拼接。例子:concat('XPath ','is ','FUN!')结果:'XPath is FUN!'
fn:string-join((string,string,...),sep) 使用 sep 参数作为分隔符,来返回 string 参数拼接后的字符串。例子:string-join(('We', 'are', 'having', 'fun!'), ' ')结果:' We are having fun! '例子:string-join(('We', 'are', 'having', 'fun!'))结果:'Wearehavingfun!'例子:string-join((), 'sep')结果:''
fn:substring(string,start,len)fn:substring(string,start) 返回从 start 位置开始的指定长度的子字符串。第一个字符的下标是 1。如果省略 len 参数,则返回从位置 start 到字符串末尾的子字符串。例子:substring('Beatles',1,4)结果:'Beat'例子:substring('Beatles',2)结果:'eatles'
fn:string-length(string)fn:string-length() 返回指定字符串的长度。如果没有 string 参数,则返回当前节点的字符串值的长度。例子:string-length('Beatles')结果:7
fn:normalize-space(string)fn:normalize-space() 删除指定字符串的开头和结尾的空白,并把内部的所有空白序列替换为一个,然后返回结果。如果没有 string 参数,则处理当前节点。例子:normalize-space(' The XML ')结果:'The XML'
fn:normalize-unicode() 执行 Unicode 规格化。
fn:upper-case(string) 把 string 参数转换为大写。例子:upper-case('The XML')结果:'THE XML'
fn:lower-case(string) 把 string 参数转换为小写。例子:lower-case('The XML')结果:'the xml'
fn:translate(string1,string2,string3) 把 string1 中的 string2 替换为 string3。例子:translate('12:30','30','45')结果:'12:45'例子:translate('12:30','03','54')结果:'12:45'例子:translate('12:30','0123','abcd')结果:'bc:da'
fn:escape-uri(stringURI,esc-res) 例子:escape-uri("http://example.com/test#car", true())结果:"http%3A%2F%2Fexample.com%2Ftest#car"例子:escape-uri("http://example.com/test#car", false())结果:"http://example.com/test#car"例子:escape-uri ("http://example.com/~bébé", false())结果:"http://example.com/~bébé"
fn:contains(string1,string2) 如果 string1 包含 string2,则返回 true,否则返回 false。例子:contains('XML','XM')结果:true
fn:starts-with(string1,string2) 如果 string1 以 string2 开始,则返回 true,否则返回 false。例子:starts-with('XML','X')结果:true
fn:ends-with(string1,string2) 如果 string1 以 string2 结尾,则返回 true,否则返回 false。例子:ends-with('XML','X')结果:false
fn:substring-before(string1,string2) 返回 string2 在 string1 中出现之前的子字符串。例子:substring-before('12/10','/')结果:'12'
fn:substring-after(string1,string2) 返回 string2 在 string1 中出现之后的子字符串。例子:substring-after('12/10','/')结果:'10'
fn:matches(string,pattern) 如果 string 参数匹配指定的模式,则返回 true,否则返回 false。例子:matches("Merano", "ran")结果:true
fn:replace(string,pattern,replace) 把指定的模式替换为 replace 参数,并返回结果。例子:replace("Bella Italia", "l", "")结果:'Be**a Itaia'例子:replace("Bella Italia", "l", "")结果:'Bea Itaia'
fn:tokenize(string,pattern) 例子:tokenize("XPath is fun", "\s+")结果:("XPath", "is", "fun")

4.10 针对 anyURI 的函数

名称 说明
fn:resolve-uri(relative,base)

4.11 关于布尔值的函数

名称 说明
fn:boolean(arg) 返回数字、字符串或节点集的布尔值。
fn:not(arg) 首先通过 boolean() 函数把参数还原为一个布尔值。如果该布尔值为 false,则返回 true,否则返回 true。例子:not(true())结果:false
fn:true() 返回布尔值 true。例子:true()结果:true
fn:false() 返回布尔值 false。例子:false()结果:false

4.12 有关持续时间、日期和时间的函数

日期、时间、持续时间的组件提取函数

名称 说明
fn:dateTime(date,time) 把参数转换为日期和时间。
fn:years-from-duration(datetimedur) 返回参数值的年份部分的整数,以标准词汇表示法来表示。
fn:months-from-duration(datetimedur) 返回参数值的月份部分的整数,以标准词汇表示法来表示。
fn:days-from-duration(datetimedur) 返回参数值的天部分的整数,以标准词汇表示法来表示。
fn:hours-from-duration(datetimedur) 返回参数值的小时部分的整数,以标准词汇表示法来表示。
fn:minutes-from-duration(datetimedur) 返回参数值的分钟部分的整数,以标准词汇表示法来表示。
fn:seconds-from-duration(datetimedur) 返回参数值的分钟部分的十进制数,以标准词汇表示法来表示。
fn:year-from-dateTime(datetime) 返回参数本地值的年部分的整数。例子:year-from-dateTime(xs:dateTime("2005-01-10T12:30-04:10"))结果:2005
fn:month-from-dateTime(datetime) 返回参数本地值的月部分的整数。例子:month-from-dateTime(xs:dateTime("2005-01-10T12:30-04:10"))结果:01
fn:day-from-dateTime(datetime) 返回参数本地值的天部分的整数。例子:day-from-dateTime(xs:dateTime("2005-01-10T12:30-04:10"))结果:10
fn:hours-from-dateTime(datetime) 返回参数本地值的小时部分的整数。例子:hours-from-dateTime(xs:dateTime("2005-01-10T12:30-04:10"))结果:12
fn:minutes-from-dateTime(datetime) 返回参数本地值的分钟部分的整数。例子:minutes-from-dateTime(xs:dateTime("2005-01-10T12:30-04:10"))结果:30
fn:seconds-from-dateTime(datetime) 返回参数本地值的秒部分的十进制数。例子:seconds-from-dateTime(xs:dateTime("2005-01-10T12:30:00-04:10"))结果:0
fn:timezone-from-dateTime(datetime) 返回参数的时区部分,如果存在。
fn:year-from-date(date) 返回参数本地值中表示年的整数。例子:year-from-date(xs:date("2005-04-23"))结果:2005
fn:month-from-date(date) 返回参数本地值中表示月的整数。例子:month-from-date(xs:date("2005-04-23"))结果:4
fn:day-from-date(date) 返回参数本地值中表示天的整数。例子:day-from-date(xs:date("2005-04-23"))结果:23
fn:timezone-from-date(date) 返回参数的时区部分,如果存在。
fn:hours-from-time(time) 返回参数本地值中表示小时部分的整数。例子:hours-from-time(xs:time("10:22:00"))结果:10
fn:minutes-from-time(time) 返回参数本地值中表示分钟部分的整数。例子:minutes-from-time(xs:time("10:22:00"))结果:22
fn:seconds-from-time(time) 返回参数本地值中表示秒部分的整数。例子:seconds-from-time(xs:time("10:22:00"))结果:0
fn:timezone-from-time(time) 返回参数的时区部分,如果存在。
fn:adjust-dateTime-to-timezone(datetime,timezone) 如果 timezone 参数为空,则返回没有时区的 dateTime。否则返回带有时区的 dateTime。
fn:adjust-date-to-timezone(date,timezone) 如果 timezone 参数为空,则返回没有时区的 date。否则返回带有时区的 date。
fn:adjust-time-to-timezone(time,timezone) 如果 timezone 参数为空,则返回没有时区的 time。否则返回带有时区的 time。

4.13 与 QNames 相关的函数

名称 说明
fn:QName()
fn:local-name-from-QName()
fn:namespace-uri-from-QName()
fn:namespace-uri-for-prefix()
fn:in-scope-prefixes()
fn:resolve-QName()

4.14 关于节点的函数

名称 说明
fn:name()fn:name(nodeset) 返回当前节点的名称或指定节点集中的第一个节点。
fn:local-name()fn:local-name(nodeset) 返回当前节点的名称或指定节点集中的第一个节点 - 不带有命名空间前缀。
fn:namespace-uri()fn:namespace-uri(nodeset) 返回当前节点或指定节点集中第一个节点的命名空间 URI。
fn:lang(lang) 如果当前节点的语言匹配指定的语言,则返回 true。例子:Lang("en") is true for

...

例子:Lang("de") is false for

...

fn:root()fn:root(node) 返回当前节点或指定的节点所属的节点树的根节点。通常是文档节点。

4.15 有关序列的函数

一般性的函数

名称 说明
fn:index-of((item,item,...),searchitem) 返回在项目序列中等于 searchitem 参数的位置。例子:index-of ((15, 40, 25, 40, 10), 40)结果:(2, 4)例子:index-of (("a", "dog", "and", "a", "duck"), "a")Result (1, 4)例子:index-of ((15, 40, 25, 40, 10), 18)结果:()
fn:remove((item,item,...),position) 返回由 item 参数构造的新序列 - 同时删除 position 参数指定的项目。例子:remove(("ab", "cd", "ef"), 0)结果:("ab", "cd", "ef")例子:remove(("ab", "cd", "ef"), 1)结果:("cd", "ef")例子:remove(("ab", "cd", "ef"), 4)结果:("ab", "cd", "ef")
fn:empty(item,item,...) 如果参数值是空序列,则返回 true,否则返回 false。例子:empty(remove(("ab", "cd"), 1))结果:false
fn:exists(item,item,...) 如果参数值不是空序列,则返回 true,否则返回 false。例子:exists(remove(("ab"), 1))结果:false
fn:distinct-values((item,item,...),collation) 返回唯一不同的值。例子:distinct-values((1, 2, 3, 1, 2))结果:(1, 2, 3)
fn:insert-before((item,item,...),pos,inserts) 返回由 item 参数构造的新序列 - 同时在 pos 参数指定位置插入 inserts 参数的值。例子:insert-before(("ab", "cd"), 0, "gh")结果:("gh", "ab", "cd")例子:insert-before(("ab", "cd"), 1, "gh")结果:("gh", "ab", "cd")例子:insert-before(("ab", "cd"), 2, "gh")结果:("ab", "gh", "cd")例子:insert-before(("ab", "cd"), 5, "gh")结果:("ab", "cd", "gh")
fn:reverse((item,item,...)) 返回指定的项目的颠倒顺序。例子:reverse(("ab", "cd", "ef"))结果:("ef", "cd", "ab")例子:reverse(("ab"))结果:("ab")
fn:subsequence((item,item,...),start,len) 返回 start 参数指定的位置返回项目序列,序列的长度由 len 参数指定。第一个项目的位置是 1。例子:subsequence(($item1, $item2, $item3,...), 3)结果:($item3, ...)例子:subsequence(($item1, $item2, $item3, ...), 2, 2)结果:($item2, $item3)
fn:unordered((item,item,...)) 依据实现决定的顺序来返回项目。

测试序列容量的函数

名称 说明
fn:zero-or-one(item,item,...) 如果参数包含零个或一个项目,则返回参数,否则生成错误。
fn:one-or-more(item,item,...) 如果参数包含一个或多个项目,则返回参数,否则生成错误。
fn:exactly-one(item,item,...) 如果参数包含一个项目,则返回参数,否则生成错误。

Equals, Union, Intersection and Except

名称 说明
fn:deep-equal(param1,param2,collation) 如果 param1 和 param2 与彼此相等(deep-equal),则返回 true,否则返回 false。

合计函数

名称 说明
fn:count((item,item,...)) 返回节点的数量。
fn:avg((arg,arg,...)) 返回参数值的平均数。 例子:avg((1,2,3)) 结果:2
fn:max((arg,arg,...)) 返回大于其它参数的参数。 例子:max((1,2,3)) 结果:3 例子:max(('a', 'k')) 结果:'k'
fn:min((arg,arg,...)) 返回小于其它参数的参数。 例子:min((1,2,3)) 结果:1 例子:min(('a', 'k')) 结果:'a'
fn:sum(arg,arg,...) 返回指定节点集中每个节点的数值的总和。

生成序列的函数

名称 说明
fn:id((string,string,...),node) Returns a sequence of element nodes that have an ID value equal to the value of one or more of the values specified in the string argument
fn:idref((string,string,...),node) Returns a sequence of element or attribute nodes that have an IDREF value equal to the value of one or more of the values specified in the string argument
fn:doc(URI)
fn:doc-available(URI) 如果 doc() 函数返回文档节点,则返回 true,否则返回 false。
fn:collection()fn:collection(string)

上下文函数

名称 说明
fn:position() 返回当前正在被处理的节点的 index 位置。例子://book[position()<=3]结果:选择前三个 book 元素
fn:last() 返回在被处理的节点列表中的项目数目。例子://book[last()]结果:选择最后一个 book 元素
fn:current-dateTime() 返回当前的 dateTime(带有时区)。
fn:current-date() 返回当前的日期(带有时区)。
fn:current-time() 返回当前的时间(带有时区)。
fn:implicit-timezone() 返回隐式时区的值。
fn:default-collation() 返回默认对照的值。
fn:static-base-uri() 返回 base-uri 的值。

更多的函数详见:https://www.runoob.com/xpath/xpath-functions.html

5、 使用pyquery

5.1、初始化

像Beautiful Soup一样, 初始化pyquery时也需要传入HTML文本来初始化一个PyQuery对象

  • 字符串初始化
  • URL初始化
  • 文件初始化

5.2、 基本CSS选择器

传入一个CSS选择器

5.3、查找节点

5.3.1、子节点

find():查找所有子孙节点,传入的参数是 css 选择器。 find()方法会将符合条件的所有节点选择出来,结果的类型是 PyQuery 类型。

children():查找子节点,可传入的参数是 css 选择器。

5.3.2、父节点

parent():获取某个节点的父节点

parents():获取所有祖先节点

5.3.3、兄弟节点

siblings():获取兄弟节点

5.3.4、遍历

items(): 会得到一个生成器,遍历一下就可以逐个得到对象

5.3.5、获取信息

attr():获取属性

text():获取节点内部的文本信息

html():获取节点内部的HTML文本

5.3.6、节点操作

addClass():为该节点添加class属性

removeClass():为该节点移除class属性

attr():为该节点添加属性,第一个参数为属性名,第二个参数为属性值

text():为该节点内部添加文本信息

html():为该节点内部添加HTML文本

remove():移除选中的节点及内部的HTML文本

5.3.7、伪类选择器

同时支持CSS的伪类选择器

推荐阅读