Tag: elementtree

ElementTree XPath – 基于属性select元素: 我在使用ElementTree中的属性XPath Selector时遇到了问题，根据文档我应该可以这样做这是一些示例代码 XML <root> <target name="1"> <a></a> <b></b> </target> <target name="2"> <a></a> <b></b> </target> </root> python def parse(document): root = et.parse(document) for target in root.findall("//target[@name='a']"): print target._children 我收到以下exception： expected path separator ([)

使用ElementTree示例在Python中parsingXML: 我很难find一个很好的，基本的例子，如何使用元素树在Python中parsingXML。从我所能find的，这似乎是用于parsingXML的最简单的库。以下是我正在使用的XML示例： <timeSeriesResponse> <queryInfo> <locationParam>01474500</locationParam> <variableParam>99988</variableParam> <timeParam> <beginDateTime>2009-09-24T15:15:55.271</beginDateTime> <endDateTime>2009-11-23T15:15:55.271</endDateTime> </timeParam> </queryInfo> <timeSeries name="NWIS Time Series Instantaneous Values"> <values count="2876"> <value dateTime="2009-09-24T15:30:00.000-04:00" qualifiers="P">550</value> <value dateTime="2009-09-24T16:00:00.000-04:00" qualifiers="P">419</value> <value dateTime="2009-09-24T16:30:00.000-04:00" qualifiers="P">370</value> ….. </values> </timeSeries> </timeSeriesResponse> 我能够用硬编码的方法做我所需要的。但是我需要我的代码更有活力。这是什么工作： tree = ET.parse(sample.xml) doc = tree.getroot() timeseries = doc[1] values = timeseries[2] print child.attrib['dateTime'], child.text #prints 2009-09-24T15:30:00.000-04:00, 550 以下是我尝试过的一些事情，他们都没有工作，报告他们找不到timeSeries（或其他我试过的）： […]

XMLparsing – ElementTree与SAX和DOM: Python有几种方法来parsingXML … 我理解用SAXparsing的基础知识。它作为一个streamparsing器，具有事件驱动的API。我也了解DOMparsing器。它将XML读入内存，并将其转换为可以用Python访问的对象。一般来说，根据你需要做什么，记忆的限制，性能等，在2之间进行select是很容易的。（希望我到目前为止是正确的）。从Python 2.5开始，我们也有ElementTree 。这与DOM和SAX相比如何？哪个更类似？为什么比以前的parsing器更好？

Python ElementTree模块：如何在使用方法“find”，“findall”时忽略XML文件的命名空间来定位匹配元素，: 我想使用“findall”的方法来查找ElementTree模块中源xml文件的一些元素。但是，源XML文件（test.xml）具有名称空间。我截断了一部分xml文件作为示例： <?xml version="1.0" encoding="iso-8859-1"?> <XML_HEADER xmlns="http://www.test.com"> <TYPE>Updates</TYPE> <DATE>9/26/2012 10:30:34 AM</DATE> <COPYRIGHT_NOTICE>All Rights Reserved.</COPYRIGHT_NOTICE> <LICENSE>newlicense.htm</LICENSE> <DEAL_LEVEL> <PAID_OFF>N</PAID_OFF> </DEAL_LEVEL> </XML_HEADER> 示例python代码如下： from xml.etree import ElementTree as ET tree = ET.parse(r"test.xml") el1 = tree.findall("DEAL_LEVEL/PAID_OFF") # Return None el2 = tree.findall("{http://www.test.com}DEAL_LEVEL/{http://www.test.com}PAID_OFF") # Return <Element '{http://www.test.com}DEAL_LEVEL/PAID_OFF' at 0xb78b90> 虽然它可以工作，但是由于存在名称空间“{http://www.test.com}”，因此在每个标签前添加一个名称空间非常不方便。如何在使用“find”，“findall”等方法时忽略名称空间？

ElementTree可以被告知保存属性的顺序吗？: 我已经写了一个相当简单的filter在python中使用ElementTree模仿一些xml文件的上下文。它或多或less起作用。但它重新sorting各种标签的属性，我希望它不这样做。有谁知道一个开关，我可以扔，使它们保持在指定的顺序？上下文为此我正在使用一个粒子物理工具，它有一个复杂的，但奇怪的基于xml文件的configuration系统。设置这种方式的许多事情是各种静态数据文件的path。这些path被硬编码到现有的xml中，并且没有设置或者根据环境variables来改变它们，在我们的本地安装中它们必然在不同的地方。这不是一场灾难，因为我们使用的源码和构build控制工具可以让我们用本地副本来遮盖某些文件。但即使认为数据字段是静态的xml不是，所以我写了一个脚本来修复path，但与属性重新排列之间的本地和主版本比较难以阅读比必要的。这是我第一次把ElementTree旋转（只有我的第五或第六个Python项目），所以也许我只是做错了。简单起见，代码如下所示： tree = elementtree.ElementTree.parse(inputfile) i = tree.getiterator() for e in i: e.text = filter(e.text) tree.write(outputfile) 合理还是愚蠢？相关链接：我如何使用Python xml.sax获取元素属性列表的顺序？用minidom修改时保留属性的顺序

对大型XML文件使用Python Iterparse: 我需要用Python编写一个parsing器，它可以在没有太多内存（只有2 GB）的计算机上处理一些非常大的文件（> 2 GB）。我想在lxml中使用iterparse来做到这一点。我的文件的格式是： <item> <title>Item 1</title> <desc>Description 1</desc> </item> <item> <title>Item 2</title> <desc>Description 2</desc> </item> 到目前为止我的解决scheme是： from lxml import etree context = etree.iterparse( MYFILE, tag='item' ) for event, elem in context : print elem.xpath( 'description/text( )' ) del context 不幸的是，这个解决scheme仍然消耗了大量的内存。我觉得问题是，在处理好每一个“项目”之后，我需要做些什么来清理空的孩子。任何人都可以提供一些build议，我可以做什么后，处理我的数据妥善清理？