msgbartop
PHP语言, PHP扩展, Zend引擎相关的研究,技术,新闻分享 – 左手代码 右手诗
msgbarbottom

26 Sep 09 PHP文件上传源码分析(RFC1867)

文件上传,一般分为俩种方式FTP和HTTP, 对于我们的互联网应用来说: FTP上传虽然传输稳定, 但是易用性和安全性都是个问题. 你总不至于在用户要上传头像的时候告诉用户”请打开FTP客户端,上传文件到http://www.laruence.com/uploads/中, 并以2dk433423l.jpg命名”吧?

而基于HTTP的上传,相对来说易用性和安全性上就比FTP要增强了很多. 可以应用的上传方式有PUT, WEBDAV, 和RFC1867三种, 本文将分析在PHP中,是如何基于RFC1867实现文件上传的.

RFC1867

RCF1867是Form-based File Upload in HTML标准协议, RFC1867标准对HTML做出了两处修改:
 

1 为input元素的type属性增加了一个file选项。
2 input标记可以具有accept属性,该属性能够指定可被上传的文件类型或文件格式列表。

  
另外,本标准还定义了一种新的mime类型:multipart/form-data,以及当处理一个带有enctype=”multipart/form-data” 并且/或含有<input type=”file”>的标记的表单时所应该采取的行为。
  
举例来说,当HTML想让用户能够上传一个或更多的文件时,他可以这么写:

<form enctype="multipart/form-data" action="upload.php" method=post>
选择文件:
<input name="userfile" type="file">
文件描述:
<input name="description" type="text">
<input type="submit" value="上传">
</form>

这个表单, 大家一定不陌生, 而对于PHP来说, 它自己另外定义了一个默认表单元素MAX_FILE_SIZE, 用户可以通过这个隐藏的表单元素来建议PHP最多只容许上传文件的大小, 比如对于上面的例子, 我们希望用户上传的文件不能大于5000(5k)字节, 那么可以如下写:

<form enctype="multipart/form-data" action="upload.php" method=post>
<input type="hidden" value="5000" name="MAX_FILE_SIZE"> <!--文件大小-->
选择文件:
<input name="userfile" type="file">
文件描述:
<input name="description" type="text">
<input type="submit" value="上传">
</form>

姑且不说, 这个MAX_FILE_SIZE是多么的不可靠(所以基于浏览器的控制,都是不可靠的), 我们单纯从实现来介绍这个MAX_FILE_SIZE是如何起作用的.

当用户选择了一个文件(laruence.txt), 并填写好文件描述(“laruence的个人介绍”), 点击上传后, 发生了什么呢?

表单提交

在用户确定提交以后, 浏览器会根据用户选择的输入, 读取要上传的文件, 连同表单中的其他元素, 组织成一定格式(如下)的数据发送到form中action属性指定的页面(在本例中是upload.php):

//请求头
POST /upload.php HTTP/1.0\r\n
...
Host: www.laruence.com\r\n
...
Content-length: xxxxx\r\n
...
Content-type: multipart/form-data, boundary=7d51863950254\r\n
...\r\n\r\n
//开始POST数据内容
--7d51863950254
content-disposition: form-data; name="description"\r\n
laruence的个人介绍
--7d51863950254
content-disposition: form-data; name="userfile"; filename="laruence.txt"
Content-Type: text/plain\r\n
... laruence.txt 的内容...
--7d51863950254--

接下来, 就是服务器, 是如何处理这些数据了.

接受上传

当Web服务器, 此处假设为Apache(另外假设PHP是以module方式安装在Apache上的), 接受到用户的数据时, 首先它根据HTTP请求头, 通过确定MIME TYPE为PHP类型, 然后经过一些过程以后(这部分,可以参看我之前的PHP Life Cycle ppt), 最终会把控制权交给PHP模块.

这个时候, PHP会调用sapi_activate来初始化一个请求, 在这个过程中, 首先判断请求类型, 此时是POST, 从而去调用sapi_read_post_data, 通过Content-type, 找到rfc1867的处理函数rfc1867_post_handler, 从而调用这个handler, 来分析POST来的数据.

关于rfc1867_post_handler这部分的源代码, 可以在mian/rfc1867.c找到, 另外也可以参看我之前的深入理解PHP之文件上传, 其中也列出的源代码.

然后, PHP通过boundary, 对于每一个分段, 都通过检查, 是否同时定义了:

	name和filename属性(有名文件上传)
	没有定义name定义了filename(无名上传)
	定义了name没有定义filename(普通数据),

从而进行不同的处理.

if ((cd = php_mime_get_hdr_value(header, "Content-Disposition"))) {
	char *pair=NULL;
	int end=0;

	while (isspace(*cd)) {
		++cd;
	}

	while (*cd && (pair = php_ap_getword(&cd, ';')))
	{
		char *key=NULL, *word = pair;

		while (isspace(*cd)) {
			++cd;
		}

		if (strchr(pair, '=')) {
			key = php_ap_getword(&pair, '=');

			if (!strcasecmp(key, "name")) {
				//获取name字段
				if (param) {
					efree(param);
				}
				param = php_ap_getword_conf(&pair TSRMLS_CC);
			} else if (!strcasecmp(key, "filename")) {
				//获取filename字段
				if (filename) {
					efree(filename);
				}
				filename = php_ap_getword_conf(&pair TSRMLS_CC);
			}
		}
		if (key) {
			efree(key);
		}
		efree(word);
	}

在这个过程中, PHP会去检查普通数据中,是否有MAX_FILE_SIZE.

 /* Normal form variable, safe to read all data into memory */
if (!filename && param) {
	unsigned int value_len;
	char *value = multipart_buffer_read_body(mbuff, &value_len TSRMLS_CC);
	unsigned int new_val_len; /* Dummy variable */
	......

	if (!strcasecmp(param, "MAX_FILE_SIZE")) {
                  max_file_size = atol(value);
    }

	efree(param);
	efree(value);
	continue;
}

有的话, 就会按照它的值来检查文件大小是否超出.

if (PG(upload_max_filesize) > 0 && total_bytes > PG(upload_max_filesize)) {
	cancel_upload = UPLOAD_ERROR_A;
} else if (max_file_size && (total_bytes > max_file_size)) {
#if DEBUG_FILE_UPLOAD
	sapi_module.sapi_error(E_NOTICE,
		"MAX_FILE_SIZE of %ld bytes exceeded - file [%s=%s] not saved",
		 max_file_size, param, filename);
#endif
	cancel_upload = UPLOAD_ERROR_B;
}

通过上面的代码,我们也可以看到, 判断分为俩部, 第一部分是检查PHP默认的上传上限. 第二部分才是检查用户自定义的MAX_FILE_SIZE, 所以表单中定义的MAX_FILE_SIZE并不能超过PHP中设置的最大上传文件大小.

通过对name和filename的判断, 如果是文件上传, 会根据php的设置, 在文件上传目录中创建一个随机名字的临时文件:

 if (!skip_upload) {
	/* Handle file */
	fd = php_open_temporary_fd_ex(PG(upload_tmp_dir),
			 "php", &temp_filename, 1 TSRMLS_CC);
	if (fd==-1) {
		sapi_module.sapi_error(E_WARNING,
			 "File upload error - unable to create a temporary file");
		cancel_upload = UPLOAD_ERROR_E;
	}
}

返回文件句柄, 和临时随机文件名.

之后, 还会有一些验证,比如文件名合法, name合法等.

如果这些验证都通过, 那么就把内容读入, 写入到这个临时文件中.

.....
else if (blen > 0) {
	wlen = write(fd, buff, blen); //写入临时文件.
	if (wlen == -1) {
	/* write failed */
#if DEBUG_FILE_UPLOAD
	sapi_module.sapi_error(E_NOTICE, "write() failed - %s", strerror(errno));
#endif
	cancel_upload = UPLOAD_ERROR_F;
	}
}
....

当循环读入完成后, 关闭临时文件句柄. 记录临时变量名:

zend_hash_add(SG(rfc1867_uploaded_files), temp_filename,
	strlen(temp_filename) + 1, &temp_filename, sizeof(char *), NULL);

并且生成FILE变量, 这个时候, 如果是有名上传, 那么就会设置:

$_FILES['userfile'] //name="userfile"

如果是无名上传, 则会使用tmp_name来设置:

$_FILES['tmp_name'] //无名上传

最终交给用户编写的upload.php处理.

这时在upload.php中, 用户就可以通过move_uploaded_file来操作刚才生成的文件了~


分享到:



Related Posts:

Tags: , , ,

20 Responses to “PHP文件上传源码分析(RFC1867)”

  1. 高性能图片服务器–ZIMG – IT世界 |

    [...] 在图片上传部分,其实能玩的花样很少,但是编写代码所消耗的时间最多。现在我们再假设一种情景,如果我们的图片服务器前端采用Nginx,上传功能用PHP实现,需要写的代码很少,但是性能如何呢,答案是很差。首先PHP接收到Nginx传过来的请求后,会根据http协议(RFC1867)分离出其中的二进制文件,存储在一个临时目录里,等我们在PHP代码里使用$_FILES["upfile"][tmp_name]获取到文件后计算MD5再存储到指定目录,在这个过程中有一次读文件一次写文件是多余的,其实最好的情况是我们拿到http请求中的二进制文件(最好在内存里),直接计算MD5然后存储。 于是我去阅读了PHP的源代码,自己实现了POST文件的解析,让http层直接和存储层连在了一起,提高了上传图片的性能。关于RFC1867的内容和PHP是如何处理的,感兴趣的读者可以去搜索了解下,这里推荐@Laruence的文章《PHP文件上传源码分析(RFC1867) 》。 除了POST请求这个例子,zimg代码中有多处都体现了这种“减少磁盘I/O,尽量在内存中读写”和“避免内存复制”的思想,一点点的积累,最终将会带来优秀的表现。 [...]

  2. Bewyn |

    文件上传大的数据,不能这样做。

  3. 高性能图片服务器浅谈 | wing程序员 |

    [...] 在图片上传部分,其实能玩的花样很少,但是编写代码所消耗的时间最多。现在我们再假设一种情景,如果我们的图片服务器前端采用Nginx,上传功能 用PHP实现,需要写的代码很少,但是性能如何呢,答案是很差。首先PHP接收到Nginx传过来的请求后,会根据http协议(RFC1867)分离出 其中的二进制文件,存储在一个临时目录里,等我们在PHP代码里使用$_FILES["upfile"][tmp_name]获取到文件后计算MD5再存 储到指定目录,在这个过程中有一次读文件一次写文件是多余的,其实最好的情况是我们拿到http请求中的二进制文件(最好在内存里),直接计算MD5然后存储。 于是我去阅读了PHP的源代码,自己实现了POST文件的解析,让http层直接和存储层连在了一起,提高了上传图片的性能。关于RFC1867的内容和PHP是如何处理的,感兴趣的读者可以去搜索了解下,这里推荐@Laruence的文章《PHP文件上传源码分析(RFC1867) 》。 除了POST请求这个例子,zimg代码中有多处都体现了这种“减少磁盘I/O,尽量在内存中读写”和“避免内存复制”的思想,一点点的积累,最终将会带来优秀的表现。 [...]

  4. zhuzz |

    最近在做文件上传请教个问题。
    看了你的文件,我这么理解。通过HTTP上传来的文件,到PHP代码的时候已经完全接收完成。这样在处理大文件的时候很有问题。
    有没有别的方式可以使得代码,可以在接收到HEAD的时候就可以执行一些校验。比如改成PUT。

  5. Anonymous |

    最近在做文件上传请教个问题。
    看了你的文件,我这么理解。通过HTTP上传来的文件,到PHP代码的时候已经完全接收完成。这样在处理大文件的时候很有问题。
    有没有别的方式可以使得代码,可以在接收到HEAD的时候就可以执行一些校验。比如改成PUT。

  6. PHP 文件上传源码分析(RFC1867) | 岭南六少 - 一朵在LAMP架构下挣扎的云 |

    [...] 作者: laruence(http://www.laruence.com) 原文地址: http://www.laruence.com/2009/09/26/1103.html [...]

  7. PHP文件上传源码分析(RFC1867) | 万维网黑客联盟 |

    [...] 本文地址: http://www.laruence.com/2009/09/26/1103.html [...]

  8. 夏客行 » PHP 文件上传源码分析(RFC1867) |

    [...] 作者: laruence(http://www.laruence.com) 原文地址: http://www.laruence.com/2009/09/26/1103.html [...]

  9. PHP 文件上传源码分析(RFC1867) |

    [...] 作者: laruence(http://www.laruence.com) 原文地址: http://www.laruence.com/2009/09/26/1103.html [...]

  10. 雪候鸟 |

    @帅的*** 恩, 改天我系统整理介绍下这块, 这块的设计理念还是很有意思的.

  11. 帅得惊动了党 |

    哥们,你有空分析一下file_get_contents这个函数底层是怎么实现的吧...
    以下是函数跟踪过程:
    PHP_FUNCTION(file_get_contents)
    php_stream_open_wrapper_ex
    _php_stream_open_wrapper_ex
    wrapper = php_stream_locate_url_wrapper
    wrapper->wops->stream_opener
    typedef struct _php_stream_wrapper_ops php_stream_wrapper_ops
    php_plain_files_wrapper_ops
    php_plain_files_stream_opener
    php_stream_fopen_with_path_rel
    _php_stream_fopen_with_path
    php_stream_fopen_rel
    _php_stream_fopen
    到了后来就整不明白了,php里面用了一个叫做的流的东西,一切与文件,网络有关的东西都是用流实现的,流是个很好很强大的东西.不知道你能不能把这一块分析透,期待ing!

  12. 钓雪 |

    感谢楼主的分享,受益匪浅!

  13. 刘永赞 |

    你好,拜读了你的文章,受益匪浅

    希望能和你做朋友

    我也正在开始研究php源码

    热切盼望您的邮件

  14. phppan |

    风雪,在生成临时文件时,文件的名字有没有规律?或者说是随机?

  15. sychen |

    好文章,收藏了…

  16. fybird |

    第一次看,没看懂。继续看……

  17. 雪候鸟 |

    name是input的name.

    我使用的不是插件, 是shjs的css+js

  18. unixhater.com |

    我是php菜鸟,PHP默认的上传上限怎么查看与设置?filename是文件名,那name是怎么指定的,比如你传了文件laruence.txt,name是什么?

    另你用的语法高亮插件是哪种?

  19. 雪候鸟 |

    最近越来越觉得,我的文字表达能力差了….sigh, 大家将就的看,看不懂的,尽管问…

  20. phpzxh |

    你的文章都是讲的很深入的,我要把php的源码下载下来看了。

Leave a Reply

*