Perl正则表达式超详细步骤

前言
想必学习perl的人，对基础正则表达式都已经熟悉，所以学习perl正则会很轻松。这里我不打算解释基础正则的内容，而是直接介绍基础正则中不具备的但perl支持的功能。关于基础正则表达式的内容，可参阅基础正则表达式。

ASP站长网我第一个要说明的是，perl如何使用正则。还记得当初把《精通正则表达式》的书看了一遍，把perl正则也学了个七七八八，但是学完后却不知道怎么去使用perl正则，虽然里面也介绍了一点如何使用perl语言，grep的"-P"选项使用的也是perl正则，ack工具支持的也完全是perl正则，但都没有完整地体现perl正则的功能，总感觉缺点啥。最大的无奈莫过于此了，学了知识，却不知道怎么完整地应用。所以，我把如何使用perl正则来匹配数据放在最开头介绍，包括匹配指定字符串、匹配变量、匹配标准输入(如管道传递的数据)以及匹配文件中的每一行数据，而且后文我假设各位和我当初一样，完全没有perl语言基础，所以我会介绍一些perl语言和后文相关的语法，确保全文学习过程没有任何阻塞。

另外，本系列只介绍匹配操作，关于内容替换，因为和学习使用perl正则并无多大关系，所以替换相关的将在下一篇文章单独解释。

这里推荐一个学正则非常好的资料：stackflow上关于各种语言(perl/Python/.net/Java/ruby等等)的正则的解释、示例，这里收集的都是对问题解释的非常清晰且非常经典的回答。在我学习perl正则的时候，对有些功能实在理解不了(想必你也一定会)，就会从这里找答案，而它，也从来没让我失望：https://stackoverflow.com/questions/22937618/reference-what-does-this-regex-mean/22944075#22944075

以下是perl正则的man文档：

perl正则快速入门：man perlrequick
perl正则教程：man perlretut
perl正则完整文档：man perlre
学perl正则必备的一点基本语法
新建一个文件作为perl脚本文件，在其首行写上#!/usr/bin/perl，它表示用perl作为本文件的解释器。写入一些perl程序后，再赋予执行权限就可以执行了，或者直接使用perl命令去调用这个脚本文件，前面的两个过程都可以省略，这和shell脚本的方式是完全一样的，无非是将bash替换为了perl，想必各位都理解。

1.print用来输出信息，相当于shell中的echo命令，但需要手动输入换行符"\n"进行换行。

例如：

#!/usr/bin/perl

print "hello world\n";      # 注意每一句后面都使用分号结尾
保存后，执行它(假设脚本文件名为test.pl)：

$ chmod +x test.pl
$ perl test.pl
2.变量赋值

perl中的变量可以不用事先声明，可以直接赋值甚至直接引用。注意变量名前面总是需要加上$符号，无论是赋值的时候还是引用的时候，这和其它语言不太一样。

#!/usr/bin/perl

$name="longshuai";
$age=18;
print "$name $age \n";
3.if语句用来判断，语法格式为：

if(condition){
    body
}else{
    body
}
例如：

$age = 18;
if($age <= 20){
    print "age less than 20\n";
} else {
    print "age greate than 20\n";
}
4.默认参数变量

在perl中，对于需要参数的函数或表达式，但却没有给参数，这是将会使用perl的默认参数变量$_。

例如，下面的print本来是需要参数的，但是因为没有给参数，print将输出默认的参数变量$_，也就是输出"abcde"。

$_="abcde";
print ;
perl中使用$_的地方非常多，后文还会出现，不过用到的时候我会解释。

5.读取标准输入

perl中使用一对尖括号格式的<STDIN>来读取来自非文件的标准输入，例如来自管道的数据，来自输入重定向的数据或者来自键盘的输入。需要注意的是，<STDIN>读取的输入会自带换行符，所以print输出的时候不要加上额外的换行符。

例如，在test.pl文件中写入如下内容：

#!/usr/bin/perl

$data=<STDIN>;
print "$data";
然后用管道传递一行数据给perl程序：

echo "abcdefg" | perl test.pl
只是需要注意，将<STDIN>赋值给变量时，将只能读取一行(遇到换行符就结束读取)。例如下面的perl将读取不了"hijklmn"。

echo -e "abcdefg\nhijklmn" | perl test.pl
如果想要读取多行标准输入，就不能将其赋值给变量，而是使用foreach来遍历各行(此处不介绍其它方式)：

foreach $line (<STDIN>){
    print "$line";
}
以上就是foreach的语法：

圆括号中的内容是待遍历对象，通常是一个列表，比如上面用<STDIN>读取的多行数据就是一个列表，每一行都是列表中的一个元素；
$line称为控制变量，foreach在每次迭代过程中都会选中一个列表中的元素赋值给$line，例如将读取的每一行都赋值给$line。
可以省略$line，这时就采用默认的参数变量$_，所以以下两个表达式是等价的：

foreach (<STDIN>){
    print "$_";
}

foreach $_ (<STDIN>){
    print "$_";
}
6.读取文件中的数据

正则强大的用处就是处理文本数据，所以必须要说明perl如何读取文件数据来做正则匹配。

我们可以将文件作为perl命令行的参数，perl会使用<>去读取这些文件中的内容。

foreach (<>){
    print "$_";
}
执行的时候，只要把文件作为perl命令或脚本文件的参数即可：

perl test.pl /etc/passwd
7.去掉行尾分隔符

由于<>和<STDIN>读取文件、读取标准输入的时候总是自带换行符，很多时候这个自带的换行符都会带来格式问题。所以，有必要在每次读取数据时将行尾的换行符去掉，使用chomp即可。

例如：

foreach $line (<STDIN>) {
    chomp $line;
    print "$line read\n";
}
以下是执行结果：

[root@xuexi ~]# echo -e "malongshuai gaoxiaofang" | perl 26.plx
malongshuai gaoxiaofang read
如果上面的例子中不加上chomp，那么执行结果将像下面一样：

[root@xuexi perlapp]# echo -e "malongshuai gaoxiaofang" | perl 26.plx
malongshuai gaoxiaofang
read
显然，输出格式和print语句中期待的输出格式不一样。

前面说过，可以省略$line，让其使用默认的参数变量$_，所以可以这样读取来自perl命令行参数文件的数据：

foreach (<>) {
    chomp;
    print "$_ read\n";
}
8.命令行的操作模式

其实就是一行式。perl命令行加上"-e"选项，就能在perl命令行中直接写perl表达式，例如：

echo "malongshuai" | perl -e '$name=<STDIN>;print $name;'
因为perl最为人所知的就是它应用了各种符号的组合，让人看着怪异无比，而这些符号放在命令行中很可能会被shell先解析，所以强烈建议"-e"后表达式使用单引号包围，而不是双引号。

更建议，如果可以，不要使用perl命令行的方式，调试起来容易混乱。

perl如何使用正则进行匹配
使用=~符号表示要用右边的正则表达式对左边的数据进行匹配。正则表达式的书写方式为m//。关于m//，其中斜线可以替换为其它符号，规则如下：

双斜线可以替换为任意其它对应符号，例如对称的括号类，m()，m{}，相同的标点类，m!!，m%%等等
只有当m模式采用双斜线的时候，可以省略m字母，即//等价于m//
如果正则表达式中出现了和分隔符相同的字符，可以转义表达式中的符号，但更建议换分隔符，例如/http:\/\//转换成m%http://%
所以要匹配内容，有以下两种方式：

方式一：使用data =~ m/reg/，可以明确指定要对data对应的内容进行正则匹配
方式二：直接/reg/，因为省略了参数，所以使用默认参数变量，它等价于$_ =~ m/reg/，也就是对$_保存的内容进行正则匹配
perl中匹配操作返回的是匹配成功与否，成功则返回真，匹配不成功则返回假。当然，perl提供了特殊变量允许访问匹配到的内容，甚至匹配内容之前的数据、匹配内容之后的数据都提供了相关变量以便访问。见下面的示例。

例如：

1.匹配给定字符串内容

$name = "hello gaoxiaofang";
if ($name =~ m/gao/){
    print "matched\n";
}
或者，直接将字符串拿来匹配：

"hello gaoxiaofang" =~ m/gao/;
2.匹配来自管道的每一行内容，匹配成功的行则输出

foreach (<STDIN>){
    chomp;
    if (/gao/){
        print "$_ was matched 'gao'\n";
    }
}
上面使用了默认的参数变量$_，它表示foreach迭代的每一行数据；上面还简写的正则匹配方式/gao/，它等价于$_ =~ m/gao/。

以下是执行结果：

[root@xuexi perlapp]# echo -e "malongshuai gaoxiaofang" | perl 26.plx
malongshuai gaoxiaofang was matched 'gao'
3.匹配文件中每行数据

foreach (<>){
    chomp;
    if(/gao/){
        print "$_ was matched 'gao'\n";
    }
}
4.如果想要输出匹配到的内容，可以使用特殊变量$&来引用匹配到的内容，还可以使用$`引用匹配前面部分的内容，$'引用匹配后面部分的内容

例如：

aAbBcC =~ /bB/
由于匹配的内容是bB，匹配内容之前的部分是aA，匹配之后的部分是cC，于是可以看作下面对应关系：

(aA)(bB)(cC)
|    |   |
$`   $& $'
以下是使用这三个特殊变量的示例：

$name="aAbBcC";
if(/bB/){
    print "pre match: $` \n";
    print "match: $& \n";
    print "post match: $' \n";
}
需要注意的是，正则中一般都提供全局匹配的功能，perl中使用修饰符/g开启。当开启了全局匹配功能，这3个变量保存的值需要使用循环语句去遍历，否则将只保存第一次匹配的内容。例如：

$name="aAbBcCbB";
if(/bB/g){        # 匹配完第一个bB就结束
    print "pre match: $` \n";
    print "match: $& \n";
    print "post match: $' \n";
}

while(/bB/g){   # 将迭代两次
    print "pre match: $` \n";
    print "match: $& \n";
    print "post match: $' \n";
}
perl支持的正则
从这里开始，正式介绍perl支持的正则。

出于方便，我全部都直接在perl程序内部定义待匹配的内容，如果想要匹配管道传递的输入，或者匹配文件数据，请看上文获取操作方法。

为了完整性，每一节中我都是先把一大堆的内容列出来做个简单介绍，然后再用示例解释每个(或某几个)。但perl正则的内容太多，而且很多功能前后关联，所以如果列出来的内容没有在同一小节内介绍，那么就是在后面需要的地方介绍。当然，也有些没什么用或者用的很少的功能(比如unicode相关的)，通篇都不会介绍。

模式匹配修饰符
指定模式匹配的修饰符，可以改变正则表达式的匹配行为。例如，下面的i就是一种修饰符，它让前面的正则REG匹配时忽略大小写。

m/REG/i
perl总共支持以下几种修饰符：msixpodualngc

i：匹配时忽略大小写
g：全局匹配，默认情况下，正则表达式"abc"匹配"abcdabc"字符串的时候，将之匹配左边的abc，使用g将匹配两个"abc"
c：在开启g的情况下，如果匹配失败，将不重置搜索位置
m：多行匹配模式
s：让.可以匹配换行符"\n"，也就是说该修饰符让.真的可以匹配任意字符
x：允许正则表达式使用空白符号，免得让整个表达式难读难懂，但这样会让原本的空白符号失去意义，这是可以使用\s来表示空白
o：只编译一次正则表达式
n：非捕获模式
p：保存匹配的字符串到${^PREMATCH}、${^MATCH}、${^POSTMATCH}中，它们在结果上对应$`、$&和$'，但性能上要更好
a和u和l：分别表示用ASCII、Unicode和Locale的方式来解释正则表达式，一般不用考虑这几个修饰符
d：使用unicode或原生字符集，就像5.12和之前那样，也不用考虑这个修饰符
这些修饰符可以连用，连用时顺序可随意。例如下面两行是等价的行为：全局忽略大小写的匹配行为。

m/REG/ig
m/REG/gi
上面的修饰符，本节介绍igcmsxpo这几个修饰符，n修饰符在后面分组捕获的地方解释，auld修饰符和字符集相关，不打算解释。

i修饰符：忽略大小写
该修饰符使得正则匹配的时候，忽略大小写。

$name="aAbBcC";
if($name =~ m/ab/i){
    print "pre match: $` \n";     # 输出a
    print "match: $& \n";         # 输出Ab
    print "post match: $' \n";    # 输出BcC
}

g和c修饰符以及\G
g修饰符(global)使得正则匹配的时候，对字符串做全局匹配，也就是说，即使前面匹配成功了，还会继续向后匹配，看是否还能匹配成功。

例如，字符串"abcabc"，正则表达式"ab"，在默认情况下(不是全局匹配)该正则在匹配到第一个ab后就结束了，如果使用了g修饰符，匹配完第一个ab，还会继续向后匹配，而且正好还能匹配到第二个ab，所以最终有两个ab被匹配成功。

要验证多次匹配，需要使用循环遍历的方式，而不能用if语句：

$name="aAbBcCaBc";
while($name =~ m/ab/gi){
    print "pre match: $` \n";
    print "match: $& \n";
    print "post match: $' \n";
}
执行它，将输出如下内容：

pre match: a
match: Ab
post match: BcCabd
pre match: aAbBcC
match: ab
post match: d
以下内容，如果仅仅只是为了学perl正则，那么可以跳过，因为很难，如果是学perl语言，那么可以继续看下去。

热点

Perl正则表达式超详细步骤

由 dawei

您错过了

如何做中小型公司的网站

怎么做公司网站步骤

做公司网站企业网站建设流程

摩托罗拉全球首发智变柔性屏

友情链接

Perl正则表达式超详细步骤

由 dawei

相关文章

CSS position属性取值sticky用法

CSS实现两栏布局有哪些方法

CSS3如何做凹凸和火焰的文字效果？

您错过了

如何做中小型公司的网站

怎么做公司网站步骤

做公司网站企业网站建设流程

摩托罗拉全球首发智变柔性屏