进行一些 Http 的请求了,那么请求完之后,服务器返回给我们一堆源代码,我们可不是啥都要的啊,我们是有原则的
在服务器返回给我们的源码之中,我们需要过滤,过滤则需要学会使用正则表达式,通过他过滤出我们想要的内容
我整理了最常用的的匹配表达式
字符 | 描述 |
---|---|
\d | 代表任意数字,就是阿拉伯数字 0-9 这些玩意。 |
\D | 大写的就是和小写的唱反调,\d 你代表的是任意数字是吧?那么我 \D 就代表不是数字的。 |
\w | 代表字母,数字,下划线。也就是 a-z、A-Z、0-9、_。 |
\W | 跟 \w 唱反调,代表不是字母,不是数字,不是下划线的。 |
\n | 代表一个换行。 |
\r | 代表一个回车。 |
\f | 代表换页。 |
\t | 代表一个 Tab 。 |
\s | 代表所有的空白字符,也就是上面这个:\n、\r、\t、\f。 |
\S | 跟 \s 唱反调,代表所有不是空白的字符。 |
\A | 代表字符串的开始。 |
\Z | 代表字符串的结束。 |
^ | 匹配字符串开始的位置。 |
$ | 匹配字符创结束的位置。 |
. | 代表所有的单个字符,除了 \n \r |
[...] | 代表在 [] 范围内的字符,比如 [a-z] 就代表 a到z的字母 |
[^...] | 跟 [...] 唱反调,代表不在 [] 范围内的字符 |
{n} | 匹配在 {n} 前面的东西,比如: o{2} 不能匹配 Bob 中的 o ,但是能匹配 food 中的两个o。 |
{n,m} | 匹配在 {n,m} 前面的东西,比如:o{1,3} 将匹配“fooooood”中的前三个o。 |
{n,} | 匹配在 {n,} 前面的东西,比如:o{2,} 不能匹配“Bob”中的“o”,但能匹配“foooood”中的所有o。 |
* | 和 {0,} 一个样,匹配 * 前面的 0 次或多次。 比如 zo* 能匹配“z”、“zo”以及“zoo”。 |
+ | 和{1,} 一个样,匹配 + 前面 1 次或多次。 比如 zo+”能匹配“zo”以及“zoo”,但不能匹配“z”。 |
? | 和{0,1} 一个样,匹配 ?前面 0 次或 1 次。 |
() | 匹配括号里面的内容。 |
a l b | 匹配 a 或者 b |