msgbartop
PHP源码分析,Zend引擎分析,Web相关技术研究,Web技术分享–左手代码 右手诗
msgbarbottom

19 Sep 08 深入理解PHP原理之变量分离/引用(Variables Separation)

在前面的文章中我已经介绍了PHP的变量的内部表示(深入理解PHP原理之变量(Variables inside PHP)),以及PHP中作用域的实现机制(深入理解PHP原理之变量作用域(Scope inside PHP))。这节我们就接着前面的文章,继续介绍PHP中变量分离和引用的概念:

首先我们回顾一下zval的结构:

struct _zval_struct {
        /* Variable information */
        zvalue_value value;             /* value */
        zend_uint refcount;
        zend_uchar type;        /* active type */
        zend_uchar is_ref;
};

其中的refcount和is_ref字段我们一直都没有介绍过,我们知道PHP是一个长时间运行的服务器端的脚本解释器。那么对于它来说,效率和资源占用率是一个很重要的衡量标准,也就是说,PHP必须尽量介绍内存占用率,考虑下面这段代码:

<?php
   $var = "laruence";
   $var_dup = $var;
   unset($var);
?>

第一行代码创建了一个字符串变量,申请了一个大小为9字节的内存,保存了字符串”laruence”和一个NULL(\0)的结尾。
第二行定义了一个新的字符串变量,并将变量var的值”复制”给这个新的变量。
第三行unset了变量var

这样的代码在我们平时的脚本中是很常见的,如果PHP对于每一个变量赋值都重新分配内存,copy数据的话,那么上面的这段代码公要申请18个字节的内存空间,而我们也很容易的看出来,上面的代码其实根本没有必要申请俩份空间,呵呵,PHP的开发者也看出来了:

我们之前讲过,PHP中的变量是用一个存储在symbol_table中的符号名,对应一个zval来实现的,比如对于上面的第一行代码,会在symbol_table中存储一个值”var”, 对应的有一个指针指向一个zval结构,变量值”laruence”保存在这个zval中,所以不难想象,对于上面的代码来说,我们完全可以让”var”和”var_dup”对应的指针都指向同一个zval就可以了。

PHP也是这样做的,这个时候就需要介绍我们之前一直没有介绍过的zval结构中的refcount字段了。
refcount,顾名思义,记录了当前的zval被引用的计数。
比如对于代码:

<?php
   $var = 1;
   $var_dup = $var;
?>

第一行,创建了一个整形变量,变量值是1。 此时保存整形1的这个zval的refcount为1。
第二行,创建了一个新的整形变量,变量也指向刚才创建的zval,并将这个zval的refcount加1,此时这个zval的refcount为2。
PHP提供了一个函数可以帮助我们了解这个过程debug_zval_dump:

<?php
 $var = 1;
 debug_zval_dump($var);
 $var_dup = $var;
 debug_zval_dump($var);
?>

输出:

long(1) refcount(2)
long(1) refcount(3)

如果你奇怪 ,var的refcount应该是1啊?
我们知道,对于简单变量,PHP是以传值的形式穿参数的。也就是说,当执行debug_zval_dump($var)的时候,$var会以传值的方式传递给debug_zval_dump,也就是会导致var的refcount加1,所以我们只要能看到,当变量赋值给一个变量以后,能导致zval的refcount加1这个事实即可。

现在我们回头看文章开头的代码, 当执行了最后一行unset($var)以后,会发生什么呢? 对,既是refcount减1,上代码:

<?php
   $var = "laruence";
   $var_dup = $var;
   unset($var);
   debug_zval_dump($var_dup);
?>

输出:

string(8) "laruence" refcount(2)

但是,对于下面的代码呢?

<?php
   $var = "laruence";
   $var_dup = $var;
   $var = 1;
?>

很明显在这段代码执行以后,$var_dup的值应该还是”laruence”, 那么这又是怎么实现的呢?
这就是PHP的copy on write机制:
PHP在修改一个变量以前,会首先查看这个变量的refcount,如果refcount大于1,PHP就会执行一个分离的例程, 对于上面的代码,当执行到第三行的时候,PHP发现$var指向的zval的refcount大于1,那么PHP就会复制一个新的zval出来,将原zval的refcount减1,并修改symbol_table,使得$var和$var_dup分离(Separation)。这个机制就是所谓的copy on write(写时复制)。

上代码测试:

<?php
   $var = "laruence";
   $var_dup = $var;
   $var = 1;
   debug_zval_dump($var);
   debug_zval_dump($var_dup);
?>

输出:

long(1) refcount(2)
string(8) "laruence" refcount(2)

现在我们知道,当使用变量复制的时候 ,PHP内部并不是真正的复制,而是采用指向相同的结构来尽量节约开销。那么,对于PHP中的引用,那又是如何实现呢?

<?php
   $var = "laruence";
   $var_ref = &$var;
   $var_ref = 1;
?>

这段代码结束以后,$var也会被间接的修改为1,这个过程称作(change on write:写时改变)。那么ZE是怎么知道,这次的复制是不需要Separation的呢?
这个时候就要用到zval中的is_ref字段了:
对于上面的代码,当第二行执行以后,$var所代表的zval的refcount变为2,并且同时置is_ref为1。
到第三行的时候,PHP先检查var_ref代表的zval的is_ref字段,如果为1,则不分离,大体逻辑示意如下:

 if((*val)->is_ref || (*val)->refcount<2){
		//不执行Separation
        ... ;//process
  }

但是,问题又来了,对于如下的代码,又会怎样呢?

<?php
   $var = "laruence";
   $var_dup = $var;
   $var_ref = &$var;
?>

对于上面的代码,存在一对copy on write的变量$var和$var_dup, 又有一对change on write机制的变量对$var和$var_ref,这个情况又是如何运作的呢?

当第二行执行的时候,和前面讲过的一样,$var_dup 和 $var 指向相同的zval, refcount为2.
当执行第三行的时候,PHP发现要操作的zval的refcount大于1,则,PHP会执行Separation, 将$var_dup分离出去,并将$var和$var_ref做change on write关联。也就是,refcount=2, is_ref=1;

基于这样的分析,我们就可以让debug_zval_dump出refcount为1的结果来:

<?php
	$var = "laruence";
    $var_dup = &$var;
	debug_zval_dump($var);
?>

输出:

string(8) "laruence" refcount(1)

详细原因,读者你只要稍加分析就能得出,我就不越俎代庖了。;)

这次我们介绍了PHP的变量分离机制,下次我会继续介绍如果在扩展中接收和传出PHP脚本中的参数。另外,因为最近变动比较大(换工作),所以抱歉这么长时间才有更新。

Related Posts:

Tags: , , , ,

Reader's Comments

  1. |

    写的很详细.

  2. |

    前面:

    当第二行执行的时候,和前面讲过的一样,$var_dup 和 $var 指向相同的zval, refcount为2.

    最后:

    输出:
    string(8) “laruence” refcount(1)

    可能是我没看明白,引用时引用计数不加吧.
    我测试:
    $var = “laruence”;
    $var_dup = &$var;
    $var_dup1 = &$var;
    $var_dup2 = &$var;
    debug_zval_dump($var);
    $var_dup = 1;
    debug_zval_dump($var);
    输出:
    string(8) “laruence” refcount(1)
    long(1) refcount(1)

  3. |

    啊他把我复制你的代码给过滤了.晕

  4. |

    你这个时候,调用debug_zval_dump会导致一个Separation动作的产生, 所以会refcount 1
    引用的时候,refcount是会增加的。

  5. |

    奥.明白了.我忘了,那个函数的参数,多谢指教

  6. |

    $var = “laruence”;
    $var_dup = &$var;
    $var_dup1 = &$var;
    $var_dup2 = &$var;
    debug_zval_dump(&$var);
    输出:
    &string(8) “laruence” refcount(5)

    只是输出时多了个&号.不知道什么意思,可能表示是个引用.

  7. |

    恩, 这样的时候,就不会分离了.

  8. |

    发现一个拼写错误 :)
    “PHP提供了一个函数可以帮助我们了解这个过程debug_dump_zval”中函数“debug_dump_zval”应为“debug_zval_dump”

  9. |

    ;) , 谢谢, 改正之

  10. |

    呵呵,写的文章非常好,继续加油啊。

  11. |

    刚才 想到 上次和同事讨论 关于 for 和 foreach 的问题,

    那们到底 foreach 有没有重新复制一份 value.
    如果重新复制一份的话,从理论上讲 应该要比 for 花费多的时间。

  12. |

    它不是整个复制,foreach开始的时候, 在zend_do_foreach_count()中,只是复制数组的current元素,
    所以,复制这部分的开销不是很大
    相反,如果使用了for, 花费在索引查询上的时间,会差不多大于花在foreach上的元素复制时间。

    所以,总体来说,不会差很多,但是建议使用foreach

  13. |

    分离次序好像应该遵循FIFO原则把?

  14. |

    现在的分离条件好象是
    PZVAL_IS_REF(value) && value->refcount > 0

    即is_ref=1并且refcount>0的时候可以分离,
    这样snowrui 提供的代码就可以解释输出的内容了
    输出:
    string(8) “laruence” refcount(1)
    long(1) refcount(1)

  15. |

    如果说第一个 debug_zval_dump 中传递 $val 导致 val 的refcount + 1 为什么第二次调用 不会加一呢?

  16. |

    < ?php
    $var = "laruence"; //$var ref=1
    $var_dup = &$var; // $var ref=2 is_ref=1
    debug_zval_dump($var);//传值调用,change on wirte, 分离出参数$var
    ?>

  17. |

    [...] 结合之前的文章深入理解PHP原理之变量分离/引用(Variables Separation)中介绍过的相关知识, [...]

Leave a Comment

*
To prove you're a person (not a spam script), type the security word shown in the picture. Click on the picture to hear an audio file of the word.
Click to hear an audio file of the anti-spam word