精通正則表達(dá)式 java正則表達(dá)式經(jīng)典實(shí)例
正則表達(dá)式,又稱規(guī)則表達(dá)式。(英語(yǔ):Regular Expression,在代碼中常簡(jiǎn)寫為regex、regexp或RE),計(jì)算機(jī)科學(xué)的一個(gè)概念。正則表通常被用來(lái)檢索、替換那些符合某個(gè)模式(規(guī)則)的文本。
許多程序設(shè)計(jì)語(yǔ)言都支持利用正則表達(dá)式進(jìn)行字符串操作。例如,在Perl中就內(nèi)建了一個(gè)功能強(qiáng)大的正則表達(dá)式引擎。正則表達(dá)式這個(gè)概念最初是由Unix中的工具軟件(例如sed和grep)普及開(kāi)的。正則表達(dá)式通??s寫成"regex",單數(shù)有regexp、regex,復(fù)數(shù)有regexps、regexes、regexen。
正則表達(dá)式,又稱規(guī)則表達(dá)式,英文名為Regular Expression,在代碼中常簡(jiǎn)寫為regex、regexp或RE,是計(jì)算機(jī)科學(xué)的一個(gè)概念。正則表通常被用來(lái)檢索、替換那些符合某個(gè)模式(規(guī)則)的文本。
正則表達(dá)式是對(duì)字符串(包括普通字符(例如,a 到 z 之間的字母)和特殊字符(稱為"元字符"))操作的一種邏輯公式,就是用事先定義好的一些特定字符、及這些特定字符的組合,組成一個(gè)"規(guī)則字符串",這個(gè)"規(guī)則字符串"用來(lái)表達(dá)對(duì)字符串的一種過(guò)濾邏輯。正則表達(dá)式是一種文本模式,模式描述在搜索文本時(shí)要匹配的一個(gè)或多個(gè)字符串。[1]
折疊編輯本段起源
正則表達(dá)式的"鼻祖"或許可一直追溯到科學(xué)家對(duì)人類神經(jīng)系統(tǒng)工作原理的早期研究。美國(guó)新澤西州的Warren McCulloch和出生在美國(guó)底特律的Walter Pitts這兩位神經(jīng)生理方面的科學(xué)家,研究出了一種用數(shù)學(xué)方式來(lái)描述神經(jīng)網(wǎng)絡(luò)的新方法,他們創(chuàng)造性地將神經(jīng)系統(tǒng)中的神經(jīng)元描述成了小而簡(jiǎn)單的自動(dòng)控制元,從而作出了一項(xiàng)偉大的工作革新。
在1951 年,一位名叫Stephen Kleene的數(shù)學(xué)科學(xué)家,他在Warren McCulloch和Walter Pitts早期工作的基礎(chǔ)之上,發(fā)表了一篇題目是《神經(jīng)網(wǎng)事件的表示法》的論文,利用稱之為正則集合的數(shù)學(xué)符號(hào)來(lái)描述此模型,引入了正則表達(dá)式的概念。正則表達(dá)式被作為用來(lái)描述其稱之為"正則集的代數(shù)"的一種表達(dá)式,因而采用了"正則表達(dá)式"這個(gè)術(shù)語(yǔ)。
之后一段時(shí)間,人們發(fā)現(xiàn)可以將這一工作成果應(yīng)用于其他方面。Ken Thompson就把這一成果應(yīng)用于計(jì)算搜索算法的一些早期研究,Ken Thompson是 Unix的主要發(fā)明人,也就是大名鼎鼎的Unix之父。Unix之父將此符號(hào)系統(tǒng)引入編輯器QED,然后是Unix上的編輯器ed,并最終引入grep。Jeffrey Friedl 在其著作《Mastering Regular Expressions (2nd edition)》(中文版譯作:精通正則表達(dá)式,已出到第三版)中對(duì)此作了進(jìn)一步闡述講解,如果你希望更多了解正則表達(dá)式理論和歷史,推薦你看看這本書。
自此以后,正則表達(dá)式被廣泛地應(yīng)用到各種UNIX或類似于UNIX的工具中,如大家熟知的Perl。Perl的正則表達(dá)式源自于Henry Spencer編寫的regex,之后已演化成了pcre(Perl兼容正則表達(dá)式Perl Compatible Regular Expressions),pcre是一個(gè)由Philip Hazel開(kāi)發(fā)的、為很多現(xiàn)代工具所使用的庫(kù)。正則表達(dá)式的第一個(gè)實(shí)用應(yīng)用程序即為Unix中的 qed 編輯器。
然后,正則表達(dá)式在各種計(jì)算機(jī)語(yǔ)言或各種應(yīng)用領(lǐng)域得到了廣大的應(yīng)用和發(fā)展,演變成為計(jì)算機(jī)技術(shù)森林中的一只形神美麗且聲音動(dòng)聽(tīng)的百靈鳥。
以上是關(guān)于正則表達(dá)式的起源和發(fā)展的歷史描述,如今正則表達(dá)式在基于文本的編輯器和搜索工具中依然占據(jù)著一個(gè)非常重要的地位。
在最近的六十年中,正則表達(dá)式逐漸從模糊而深?yuàn)W的數(shù)學(xué)概念,發(fā)展成為在計(jì)算機(jī)各類工具和軟件包應(yīng)用中的主要功能。不僅僅眾多UNIX工具支持正則表達(dá)式,近二十年來(lái),在WINDOWS的陣營(yíng)下,正則表達(dá)式的思想和應(yīng)用在大部分 Windows 開(kāi)發(fā)者工具包中得到支持和嵌入應(yīng)用!從正則式在Microsoft Visual Basic 6 或 Microsoft VBScript到.NET Framework中的探索和發(fā)展,WINDOWS系列產(chǎn)品對(duì)正則表達(dá)式的支持發(fā)展到無(wú)與倫比的高度,幾乎所有 Microsoft 開(kāi)發(fā)者和所有.NET語(yǔ)言都可以使用正則表達(dá)式。如果你是一位接觸計(jì)算機(jī)語(yǔ)言的工作者,那么你會(huì)在主流操作系統(tǒng)(*nix[Linux, Unix等]、Windows、HP、BeOS等)、主流的開(kāi)發(fā)語(yǔ)言(delphi、Scala、PHP、C#、Java、C++、Objective-c、Swift、VB、Javascript、Ruby以及Python等)、數(shù)以億萬(wàn)計(jì)的各種應(yīng)用軟件中,都可以看到正則表達(dá)式優(yōu)美的舞姿。
正則表達(dá)式(regular expression)描述了一種字符串匹配的模式(pattern),可以用來(lái)檢查一個(gè)串是否含有某種子串、將匹配的子串替換或者從某個(gè)串中取出符合某個(gè)條件的子串等。
例如:
- runoo+b,可以匹配 runoob、runooob、runoooooob 等,+ 號(hào)代表前面的字符必須至少出現(xiàn)一次(1次或多次)。
- runoo*b,可以匹配 runob、runoob、runoooooob 等,* 號(hào)代表字符可以不出現(xiàn),也可以出現(xiàn)一次或者多次(0次、或1次、或多次)。
- colou?r 可以匹配 color 或者 colour,? 問(wèn)號(hào)代表前面的字符最多只可以出現(xiàn)一次(0次、或1次)。
構(gòu)造正則表達(dá)式的方法和創(chuàng)建數(shù)學(xué)表達(dá)式的方法一樣。也就是用多種元字符與運(yùn)算符可以將小的表達(dá)式結(jié)合在一起來(lái)創(chuàng)建更大的表達(dá)式。正則表達(dá)式的組件可以是單個(gè)的字符、字符集合、字符范圍、字符間的選擇或者所有這些組件的任意組合。
正則表達(dá)式是由普通字符(例如字符 a 到 z)以及特殊字符(稱為"元字符")組成的文字模式。模式描述在搜索文本時(shí)要匹配的一個(gè)或多個(gè)字符串。正則表達(dá)式作為一個(gè)模板,將某個(gè)字符模式與所搜索的字符串進(jìn)行匹配。
普通字符
普通字符包括沒(méi)有顯式指定為元字符的所有可打印和不可打印字符。這包括所有大寫和小寫字母、所有數(shù)字、所有標(biāo)點(diǎn)符號(hào)和一些其他符號(hào)。
非打印字符
非打印字符也可以是正則表達(dá)式的組成部分。下表列出了表示非打印字符的轉(zhuǎn)義序列:
字符 | 描述 |
---|---|
\cx | 匹配由x指明的控制字符。例如, \cM 匹配一個(gè) Control-M 或回車符。x 的值必須為 A-Z 或 a-z 之一。否則,將 c 視為一個(gè)原義的 'c' 字符。 |
\f | 匹配一個(gè)換頁(yè)符。等價(jià)于 \x0c 和 \cL。 |
\n | 匹配一個(gè)換行符。等價(jià)于 \x0a 和 \cJ。 |
\r | 匹配一個(gè)回車符。等價(jià)于 \x0d 和 \cM。 |
\s | 匹配任何空白字符,包括空格、制表符、換頁(yè)符等等。等價(jià)于 [ \f\n\r\t\v]。 |
\S | 匹配任何非空白字符。等價(jià)于 [^ \f\n\r\t\v]。 |
\t | 匹配一個(gè)制表符。等價(jià)于 \x09 和 \cI。 |
\v | 匹配一個(gè)垂直制表符。等價(jià)于 \x0b 和 \cK。 |
特殊字符
所謂特殊字符,就是一些有特殊含義的字符,如上面說(shuō)的 runoo*b 中的 *,簡(jiǎn)單的說(shuō)就是表示任何字符串的意思。如果要查找字符串中的 * 符號(hào),則需要對(duì) * 進(jìn)行轉(zhuǎn)義,即在其前加一個(gè) \: runo\*ob 匹配 runo*ob。
許多元字符要求在試圖匹配它們時(shí)特別對(duì)待。若要匹配這些特殊字符,必須首先使字符"轉(zhuǎn)義",即,將反斜杠字符\ 放在它們前面。下表列出了正則表達(dá)式中的特殊字符:
特別字符 | 描述 |
---|---|
$ | 匹配輸入字符串的結(jié)尾位置。如果設(shè)置了 RegExp 對(duì)象的 Multiline 屬性,則 $ 也匹配 '\n' 或 '\r'。要匹配 $ 字符本身,請(qǐng)使用 \$。 |
( ) | 標(biāo)記一個(gè)子表達(dá)式的開(kāi)始和結(jié)束位置。子表達(dá)式可以獲取供以后使用。要匹配這些字符,請(qǐng)使用 \( 和 \)。 |
* | 匹配前面的子表達(dá)式零次或多次。要匹配 * 字符,請(qǐng)使用 \*。 |
+ | 匹配前面的子表達(dá)式一次或多次。要匹配 + 字符,請(qǐng)使用 \+。 |
. | 匹配除換行符 \n 之外的任何單字符。要匹配 . ,請(qǐng)使用 \. 。 |
[ | 標(biāo)記一個(gè)中括號(hào)表達(dá)式的開(kāi)始。要匹配 [,請(qǐng)使用 \[。 |
? | 匹配前面的子表達(dá)式零次或一次,或指明一個(gè)非貪婪限定符。要匹配 ? 字符,請(qǐng)使用 \?。 |
\ | 將下一個(gè)字符標(biāo)記為或特殊字符、或原義字符、或向后引用、或八進(jìn)制轉(zhuǎn)義符。例如, 'n' 匹配字符 'n'。'\n' 匹配換行符。序列 '\\' 匹配 "\",而 '\(' 則匹配 "("。 |
^ | 匹配輸入字符串的開(kāi)始位置,除非在方括號(hào)表達(dá)式中使用,此時(shí)它表示不接受該字符集合。要匹配 ^ 字符本身,請(qǐng)使用 \^。 |
{ | 標(biāo)記限定符表達(dá)式的開(kāi)始。要匹配 {,請(qǐng)使用 \{。 |
| | 指明兩項(xiàng)之間的一個(gè)選擇。要匹配 |,請(qǐng)使用 \|。 |
限定符
限定符用來(lái)指定正則表達(dá)式的一個(gè)給定組件必須要出現(xiàn)多少次才能滿足匹配。有 * 或 + 或 ? 或 {n} 或 {n,} 或 {n,m} 共6種。
正則表達(dá)式的限定符有:
|
用re = new RegExp("pattern",["flags"]) 的方式比較好 pattern : 正則表達(dá)式 flags: g (全文查找出現(xiàn)的所有 pattern) i (忽略大小寫) m (多行查找) |
vaScript動(dòng)態(tài)正則表達(dá)式問(wèn)題請(qǐng)問(wèn)正則表達(dá)式可以動(dòng)態(tài)生成嗎? 例如JavaScript中: var str = "strTemp"; 要生成: var re = /strTemp/; 如果是字符連接: var re = "/" + str + "/"即可 但是要生成表達(dá)式,可以實(shí)現(xiàn)嗎?怎樣實(shí)現(xiàn)? |
|
[JAVA] javascript 正則表達(dá)式 秋雨葉 發(fā)表于 2004-12-9 14:54:13 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
0 Comments.