用php阅读pdf文件

我有一个大的PDF文件,是一个build筑物的楼层地图。 它包括所有的办公家具,包括座位位置的文本框。

我的目标是用PHP读取这个文件,在文档中search文本图层,获取文件中的内容和坐标。 这样我可以绘制座位位置​​ – > x / y坐标。

有什么办法通过PHP来做到这一点? (甚至如果这是必要的,甚至是Ruby或Python)

检查FPDF(FPDI):

http://www.fpdf.org/

http://www.setasign.de/products/pdf-php-solutions/fpdi/

这些将允许您打开一个PDF并在PHP中添加内容。 我猜你也可以使用他们的function来search现有的内容来获取你需要的值。

另一个可能的库是TCPDF: http : //www.tecnick.com/public/code/cp_dpage.php? aiocp_dp = tcpdf

更新添加一个更现代化的图书馆: PDFparsing器

有一个php库(pdfparser),正是你想要的。

项目网站

http://www.pdfparser.org/

github上

https://github.com/smalot/pdfparser

演示页/ api

http://www.pdfparser.org/demo

在您的项目中包含pdfparser之后,您可以从mypdf.pdf获取所有文本, mypdf.pdf所示:

 <?php $parser = new \installpath\PdfParser\Parser(); $pdf = $parser->parseFile('mypdf.pdf'); $text = $pdf->getText(); echo $text;//all text from mypdf.pdf ?> 

Simular你可以从pdf获取元数据,也可以获得pdf对象(例如图像)。

嗯…不完全是PHP的,但你可以调用一个程序,从PHP转换成一个临时的HTML文件,然后用PHPparsing结果文件。 我为我的一个项目做了类似的事情,这是我使用的程序:

PdfToHtml

这个程序最棒的地方在于它会用绝对位置坐标来吐出<div>标签中的文本元素。 看来这正是你想要做的。

你可能也想尝试这个应用程序http://pdfbox.apache.org/ 。 一个工作的例子可以在https://www.jinises.comfind