哪一个是在JavaparsingXML的最好的库

我正在searchparsingXML(复杂的configuration和数据文件)的Java库,我GOOGLE了一下,但找不到除了dom4j(似乎他们正在V2)..我已经看看公用configuration,但didn不喜欢它,XML上的其他Apache项目似乎在hibernate。 我没有评估自己的dom4j,但只是想知道 – 做java有其他(好)开源XMLparsing库? 和你的经验与dom4j?

在@ Voo的答案让我问另一个 – 我应该使用Java的build在类或任何第三类库,如dom4j ..有什么优势?

实际上Java支持4种方法来parsing开箱即用的XML:

DOMparsing器/构build器:整个XML结构被加载到内存中,您可以使用众所周知的DOM方法来处理它。 DOM还允许您使用Xslt转换写入文档。 例:

public static void parse() throws ParserConfigurationException, IOException, SAXException { DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance(); factory.setValidating(true); factory.setIgnoringElementContentWhitespace(true); DocumentBuilder builder = factory.newDocumentBuilder(); File file = new File("test.xml"); Document doc = builder.parse(file); // Do something with the document here. } 

SAXparsing器:仅用于读取XML文档。 Saxparsing器遍历文档并调用用户的callback方法。 有文档,元素等的开始/结束的方法。 它们在org.xml.sax.ContentHandler中定义,并有一个空的助手类DefaultHandler。

 public static void parse() throws ParserConfigurationException, SAXException { SAXParserFactory factory = SAXParserFactory.newInstance(); factory.setValidating(true); SAXParser saxParser = factory.newSAXParser(); File file = new File("test.xml"); saxParser.parse(file, new ElementHandler()); // specify handler } 

StAx Reader / Writer:这适用于面向数据stream的界面。 当程序准备好就像游标/迭代器一样,程序要求下一个元素。 您也可以使用它创build文档。 阅读文档:

 public static void parse() throws XMLStreamException, IOException { try (FileInputStream fis = new FileInputStream("test.xml")) { XMLInputFactory xmlInFact = XMLInputFactory.newInstance(); XMLStreamReader reader = xmlInFact.createXMLStreamReader(fis); while(reader.hasNext()) { reader.next(); // do something here } } } 

写文件:

 public static void parse() throws XMLStreamException, IOException { try (FileOutputStream fos = new FileOutputStream("test.xml")){ XMLOutputFactory xmlOutFact = XMLOutputFactory.newInstance(); XMLStreamWriter writer = xmlOutFact.createXMLStreamWriter(fos); writer.writeStartDocument(); writer.writeStartElement("test"); // write stuff writer.writeEndElement(); } } 

JAXB:读取XML文档的最新实现:是v2中的Java 6的一部分。 这使我们能够从文档序列化Java对象。 你用一个实现了javax.xml.bind.Unmarshaller接口的类读取文档(你从JAXBContext.newInstance中获得了这个类)。 上下文必须用使用的类来初始化,但是你只需要指定根类,不必担心静态引用的类。 您可以使用注释来指定哪些类应该是元素(@XmlRootElement),哪些字段是元素(@XmlElement)或属性(@XmlAttribute,多么令人吃惊!)

 public static void parse() throws JAXBException, IOException { try (FileInputStream adrFile = new FileInputStream("test")) { JAXBContext ctx = JAXBContext.newInstance(RootElementClass.class); Unmarshaller um = ctx.createUnmarshaller(); RootElementClass rootElement = (RootElementClass) um.unmarshal(adrFile); } } 

写文件:

 public static void parse(RootElementClass out) throws IOException, JAXBException { try (FileOutputStream adrFile = new FileOutputStream("test.xml")) { JAXBContext ctx = JAXBContext.newInstance(RootElementClass.class); Marshaller ma = ctx.createMarshaller(); ma.marshal(out, adrFile); } } 

从一些老讲座幻灯片无耻复制的例子;-)

编辑:关于“我使用哪个API shoild?”。 那么这取决于 – 不是所有的API都具有和你所看到的相同的function,但是如果你能控制用来映射XML文档的类,那么JAXB是我个人最喜欢的,真正优雅和简单的解决scheme(尽pipe我没有用它真的很大的文件,可能会有点复杂)。 SAX非常易于使用,如果您没有足够的理由使用它,那就远离DOM吧 – 在我看来,这是一个笨重的API。 我不认为有任何现代的第三方库,特别是有用的东西,从stl中缺less,标准库具有通常的优势,经过很好的testing,logging和稳定。

Java支持两种XMLparsing方法。

SAXParser的

如果要parsing大型XML文件和/或不想使用大量内存,则可以使用此parsing器。

http://download.oracle.com/javase/6/docs/api/javax/xml/parsers/SAXParserFactory.html

例如: http : //www.mkyong.com/java/how-to-read-xml-file-in-java-sax-parser/

的DOMParser

如果您需要执行XPath查询或需要具有完整的DOM,则可以使用此parsing器。

http://download.oracle.com/javase/6/docs/api/javax/xml/parsers/DocumentBuilderFactory.html

例如: http : //www.mkyong.com/java/how-to-read-xml-file-in-java-dom-parser/

尼基塔的观点非常好:不要把成熟与不好相混淆。 XML没有太大的改变。

JDOM将是DOM4J的另一种select。

您不需要使用外部库来parsingJava中的XML。 Java为SAX和DOM提供了内置的实现。

对于那些对使用JDOM感兴趣的人们,恐怕这段时间还没有被更新(特别是没有利用Javagenerics),有一个名为CoffeeDOM的分支正好解决了这些方面,并且对JDOM API进行了更新,请阅读更多:

http://cdmckay.org/blog/2011/05/20/introducing-coffeedom-a-jdom-fork-for-java-5/

并从项目页面下载:

https://github.com/cdmckay/coffeedom

如果您想要一个类似于DOM的API(即XMLparsing器将文档转换为Element和Attribute节点树),那么至less有四种可供select:DOM本身,JDOM,DOM4J和XOM。 使用DOM的唯一可能的原因是因为它被认为是一个标准,并在JDK中提供:在其他方面,其他方面都是优越的。 我自己的偏好是XOM,它将简单性,强大性和性能结合在一起。

当然,还有其他的处理风格:低级parsing器接口(SAX和StAX),数据对象绑定接口(JAXB)和高级声明式语言(XSLT,XQuery,XPath)。 哪个最适合你,取决于你的项目需求和你的个人品味。

VTD-XML是一个沉重的XMLparsing库…在几乎所有的方面都比其他的要好……这里是2013年的一篇文章,它分析了Java平台中可用的所有XML处理框架。

digitlib/journal_paper-00000582.pdf.html