file_get_contents => PHP致命错误:允许内存耗尽

处理大文件时我没有经验,所以我不知道该怎么做。 我试图用file_get_contents读取几个大文件; 任务是使用preg_replace()来清理它们。

我的代码运行良好的小文件; 但是,大文件(40 MB)触发内存耗尽错误:

PHP Fatal error: Allowed memory size of 16777216 bytes exhausted (tried to allocate 41390283 bytes) 

我想使用fread(),但我不知道这也可以。 有没有解决这个问题的方法?

感谢您的input。

这是我的代码:

 <?php error_reporting(E_ALL); ##get find() results and remove DOS carriage returns. ##The error is thrown on the next line for large files! $myData = file_get_contents("tmp11"); $newData = str_replace("^M", "", $myData); ##cleanup Model-Manufacturer field. $pattern = '/(Model-Manufacturer:)(\n)(\w+)/i'; $replacement = '$1$3'; $newData = preg_replace($pattern, $replacement, $newData); ##cleanup Test_Version field and create comma delimited layout. $pattern = '/(Test_Version=)(\d).(\d).(\d)(\n+)/'; $replacement = '$1$2.$3.$4 '; $newData = preg_replace($pattern, $replacement, $newData); ##cleanup occasional empty Model-Manufacturer field. $pattern = '/(Test_Version=)(\d).(\d).(\d) (Test_Version=)/'; $replacement = '$1$2.$3.$4 Model-Manufacturer:N/A--$5'; $newData = preg_replace($pattern, $replacement, $newData); ##fix occasional Model-Manufacturer being incorrectly wrapped. $newData = str_replace("--","\n",$newData); ##fix 'Binary file' message when find() utility cannot id file. $pattern = '/(Binary file).*/'; $replacement = ''; $newData = preg_replace($pattern, $replacement, $newData); $newData = removeEmptyLines($newData); ##replace colon with equal sign $newData = str_replace("Model-Manufacturer:","Model-Manufacturer=",$newData); ##file stuff $fh2 = fopen("tmp2","w"); fwrite($fh2, $newData); fclose($fh2); ### Functions. ##Data cleanup function removeEmptyLines($string) { return preg_replace("/(^[\r\n]*|[\r\n]+)[\s\t]*[\r\n]+/", "\n", $string); } ?> 

首先,您应该明白,使用file_get_contents时,您将整个数据string提取到variables中 ,该variables存储在主机内存中。

如果该string大于专用于PHP进程的大小,则PHP将暂停并显示上面的错误消息。

解决这个问题的方法是将文件作为指针打开,然后每次取一个块,这样如果你有一个500MB的文件,你可以读取第一个1MB的数据,做你将要使用的数据,从这个文件中删除1MB系统的内存和更换下一个MB,这让你pipe理多less数据你把内存。

一个例子,如果这可以看到下面,我将创build一个function,像node.js行为

 function file_get_contents_chunked($file,$chunk_size,$callback) { try { $handle = fopen($file, "r"); $i = 0; while (!feof($handle)) { call_user_func_array($callback,array(fread($handle,$chunk_size),&$handle,$i)); $i++; } fclose($handle); } catch(Exception $e) { trigger_error("file_get_contents_chunked::" . $e->getMessage(),E_USER_NOTICE); return false; } return true; } 

然后像这样使用:

 $success = file_get_contents_chunked("my/large/file",4096,function($chunk,&$handle,$iteration){ /* * Do what you will with the {&chunk} here * {$handle} is passed in case you want to seek ** to different parts of the file * {$iteration} is the section fo the file that has been read so * ($i * 4096) is your current offset within the file. */ }); if(!$success) { //It Failed } 

你会发现的一个问题是,你试图在一个非常大的数据块上执行几次regex,不仅如此,而且你的正则expression式是为了匹配整个文件而build立的。

使用上面的方法,你的正则expression式可能会变得没用,因为你可能只匹配一组数据,你应该做的是恢复到本地string函数,如

  • strpos
  • substr
  • trim
  • explode

为了匹配string,我在callback中添加了支持,以便处理和当前迭代被传递,这将允许您在callback中直接使用文件,允许您使用fseekftruncatefwrite等函数。

你构buildstring操作的方式并没有那么高效,使用上面提出的方法是一种更好的方法。

希望这可以帮助。

一个非常难看的解决scheme,根据文件大小调整你的内存限制:

 $filename = "yourfile.txt"; ini_set ('memory_limit', filesize ($filename) + 4000000); $contents = file_get_contents ($filename); 

正确的解决scheme是想如果你可以用更小的块来处理文件,或者使用PHP的命令行工具。

如果你的文件是基于行的,你也可以使用fgets逐行处理它。

我的build议是使用fread。 它可能会慢一点,但你不必使用所有的内存…例如:

 //This use filesize($oldFile) memory file_put_content($newFile, file_get_content($oldFile)); //And this 8192 bytes $pNew=fopen($newFile, 'w'); $pOld=fopen($oldFile, 'r'); while(!feof($pOld)){ fwrite($pNew, fread($pOld, 8192)); }