什么是正则表达式?
正则表达式是操作字符串的逻辑公式,即将一些特定的字符组合成规则字符串,称为正则匹配模式。
$p = '/apple/';
$str = "apple banna";
if (preg_match($p, $str)) {
echo 'matched';
}
字符串apple/'是一种正则表达式,它用来匹配源字符串中是否存在apple字符串。
PHP中使用PCRE正则匹配库函数,如上例preg_match常用于判断一种字符模式是否存在执行正则匹配。
正则表达式基本语法
PCRE在库函数中,正常匹配模式由分隔符和元字符组成。分隔符可以是任何非数字、非反斜线和非空格字符。常用的分隔符是正斜线(/)hash符号(#) 取反符号(~),例如:
/foo bar/
#^[^0-9]$#
~php~
如果分隔符包含在模式中,则需要使用反斜杠(\)进行转义。
/http:\/\//
如果模式中包含更多的分割字符,建议更换其他字符作为分隔字符,也可以使用preg_quote进行转义。
$p = 'http://';
$p = '/'.preg_quote($p, '/').'/';
echo $p;
模式修饰符可用于分隔符后面,包括:i, m, s, x例如,使用i修饰符可以忽略大小写的匹配:
$str = "Http://www.imooc.com/";
if (preg_match('/http/i', $str)) {
echo '匹配成功';
}
元字符和转义
正则表达式中具有特殊含义的字符称为元字符,常用的元字符包括:
\ 一般用于转义字符
^ 断言目标的开始位置(或在多行模式下行首)
$ 断言目标的结束位置(或在多行模式下行尾)
. 除换行符以外的任何字符(默认)匹配
[ 开始字符类定义
] 结束字符类定义
| 开始可选分支
( 子组的开始标记
) 子组结束标记
? 作为量词,表示 0 次或 1 次匹配。位于量词背后,用于改变量词的贪婪特征。 (查阅量词)
* 量词,0 或多次匹配
量词,1 或多次匹配
{ 开始标记自定义量词
} 定制量词结束标记
//下面的\s匹配任何空白符,包括空格、制表符和换行符。[\s]代表非空白符。[\s] 表示一次或多次匹配非空白符。
$p = '/^我[^\s] (苹果|香蕉)$/';
$str = "我喜欢苹果";
if (preg_match($p, $str)) {
echo 匹配成功;
}
元字符有两种使用场景,一种可以在任何地方使用,另一种只能在方括号中使用,在方括号中使用:
\ 转义字符
^ 仅作为第一个字符(方括号),表示字符类取反
- 标记字符范围
其中^在反括号外面,表示断言目标的开始位置,但在方括号内部则代表字符类取反,方括号内的减号-可以标记字符范围,例如0-9表示0到9之间的所有数字。
//下面的\w匹配字母或数字或下划线。
$p = '/[\w\.\-] @[a-z0-9\-] \.(com|cn)/';
$str = "我的邮箱是Spark.eric@imooc.com";
preg_match($p, $str, $match);
echo $match[0];
贪婪模式和懒惰模式
当使用正则表达式时,每个元字符匹配一个字符 之后会变得贪婪贪婪。它会尽可能多地匹配字符,但当使用问号字符时,它会尽可能少地匹配字符是一种懒惰的模式。
贪婪模式:当可匹配或不匹配时,优先匹配
//下面的\d表示匹配数字
$p = '/\d \-\d /';
$str = "我的电话是010-12345678";
preg_match($p, $str, $match);
echo $match[0]; //结果为010-1234568
懒惰模式:当可匹配或不匹配时,优先不匹配
$p = '/\d?\-\d?/';
$str = "我的电话是010-12345678";
preg_match($p, $str, $match);
echo $match[0]; //结果为:0-1
当我们确切知道匹配的字符长度时,可以使用{}指定匹配的字符数
$p = '/\d{3}\-\d{8}/';
$str = "我的电话是010-12345678";
preg_match($p, $str, $match);
echo $match[0]; //结果为010-1234568
使用正则表达式匹配
使用正则表达式的目的是实现比字符串处理函数更灵活的处理方法。因此,与字符串处理函数一样,主要用于判断子字符串是否存在、字符串替换、字符串分割、获取模式子串等。
PHP使用PCRE对库函数进行正则处理,通过设置模式,然后调用相关处理函数获得匹配结果。
preg_match用来执行一个匹配,可以简单的用来判断模式是否匹配成功,或者取得一个匹配结果,他的返回值是匹配成功的次数0或者1,在匹配到1次以后就会停止搜索。
$subject = "abcdef";
$pattern = '/def/';
preg_match($pattern, $subject, $matches);
print_r($matches); //结果如下:Array ( [0] => def )
上述代码简单地执行匹配和判断def模式匹配是否能成功匹配,但正则表达式的强大之处在于模式匹配,因此更常用的是模式:
$subject = "abcdef";
$pattern = '/a(.*?)d/';
preg_match($pattern, $subject, $matches);
print_r($matches); //结果如下:Array ( [0] => abcd [1] => bc )
一种模式可以通过正则表达式匹配,获得更多有用的数据。
查找所有匹配结果
preg_match结果只能匹配一次,但很多时候我们需要匹配所有的结果,preg_match_all可循环获取列表中的匹配结果数组。
$p = "|] >(.*?)[^>] >|i";
$str = "example:
preg_match_all($p, $str, $matches);
print_r($matches);
可以使用preg_match_all在表格中匹配数据:
$p = "/
(.*?)\s*(.*?)\s*/i";$str = "
| Eric | 25 |
| John | 26 |
preg_match_all($p, $str, $matches);
print_r($matches);
$matches结果排序为$matches[0]保存完整模式的所有匹配, $matches[1] 以此类推,保存第一个子组的所有匹配。
正则表达式搜索和替换
正则表达式搜索和替换在调整目标字符串格式、改变目标字符串匹配字符串顺序等方面具有重要用途。
例如,我们可以简单地调整字符串的日期格式:
$string = 'April 15, 2014';
$pattern = '/(\w ) (\d ), (\d )/i';
$replacement = '$3, ${1} $2';
echo preg_replace($pattern, $replacement, $string); 结果为:2014年, April 15
其中${1}与$1的写法是等效的,表示第一个匹配字串,$代表第二次匹配。
通过复杂的模式,我们可以更准确地替换目标字符串的内容。
$patterns = array ('/(19|20)(\d{2})-(\d{1,2})-(\d{1,2}/,
'/^\s*{(\w )}\s*=/');
$replace = array ('\3/\4/\1\2', '$\1 =');//\3等效于3,\4等效于$4,依次类推
echo preg_replace($patterns, $replace, '{startDate} = 1999-5-27'); //结果为:$startDate = 5/27/1999
//详细解释下结果:(19|20)表示取19或者20中任意一个数字,(\d{2})表示两个数字,(\d{1,2})表示1个或2个数字,(\d{1,2})表示1个或2个数字。^\s{(\w+)\s=}表示以任意空格开头的,并且包含在{}中的字符,并且以任意空格结尾的,最后有个=号的。
用正则替换来去掉多余的空格与字符:
$str = 'one two';
$str = preg_replace('/\s+/', ' ', $str);
echo $str; // 结果改变为'one two'