模式中一些項可能比其他一些更加高效。 比如使用 [aeiou] 這樣的字符類(lèi)會(huì )比可選路徑 (a|e|i|o|u) 高效。 一般而言, 用盡可能簡(jiǎn)單的構造描述需求是最高效的。 Jeffrey Friedl 書(shū)(精通正則表達式)中包含了很多關(guān)于正則表達式性能的討論。
當一個(gè)模式以 .* 開(kāi)始并且設置了 PCRE_DOTALL
選項時(shí),模式通過(guò)PCRE隱式錨定,
因為它可以匹配字符串的開(kāi)始。然而,如果
PCRE_DOTALL
沒(méi)有設置,PCRE 不能做這個(gè)優(yōu)化,因為.元字符不能匹配換行符,如果目標字符串包含換行符,
模式可能會(huì )從一個(gè)換行符后面開(kāi)始匹配,而不是最開(kāi)始位置。 比如,模式
(.*) second
匹配目標字符串 ”first\nand
second”(\n 是一個(gè)換行符)第一個(gè)捕獲子組結果是 ”and”。為了這樣做,
PCRE 嘗試從目標字符串中每個(gè)換行符后開(kāi)始匹配。
如果你使用模式匹配沒(méi)有換行符的目標字符串, 可以通過(guò)設置 PCRE_DOTALL 或以 ^.* 開(kāi)始的模式明確指示錨定以獲取最佳性能。 這樣節省了 PCRE 沿目標字符串掃描查找換行符重新開(kāi)始的時(shí)間。
小心模式中的無(wú)限重復嵌套。這在應用到不匹配字符串時(shí)可能會(huì )導致運行時(shí)間很長(cháng)。
考慮模式片段
(a+)*
這個(gè)模式可以有 33 種方式匹配 ”aaaa”, 并且這個(gè)數字會(huì )隨著(zhù)字符串的長(cháng)度的增加迅速增加. (*重復可以匹配0,1,2,3,4次, 并且除了0外每種情況+都有不同次數的匹配對應)。 當模式的剩余部分導致整個(gè)匹配失敗的時(shí)候, PCRE原則上回嘗試每種可能的變化, 這將會(huì )非常耗時(shí)。
對于一些簡(jiǎn)單的情況的優(yōu)化是像
(a+)*b
這樣緊接著(zhù)使用原文字符串.。
在著(zhù)手正式匹配工作之前,PCRE 檢查目標字符串后面是否有 ”b” 字符,
如果沒(méi)有就立即失敗。然而當緊接著(zhù)沒(méi)有原文字符的時(shí)候這個(gè)優(yōu)化是不可用的。
你可以比較觀(guān)察
(a+)*\d
和上面模式的行為差異。
前者在應用到整行的 ”a” 組成的字符串時(shí)幾乎是立即報告失敗,
而后者在目標字符串長(cháng)于 20 個(gè)字符時(shí),時(shí)間消耗就相當可觀(guān)。