Tag: findall

Python ElementTree模块:如何在使用方法“find”,“findall”时忽略XML文件的命名空间来定位匹配元素,

我想使用“findall”的方法来查找ElementTree模块中源xml文件的一些元素。 但是,源XML文件(test.xml)具有名称空间。 我截断了一部分xml文件作为示例: <?xml version="1.0" encoding="iso-8859-1"?> <XML_HEADER xmlns="http://www.test.com"> <TYPE>Updates</TYPE> <DATE>9/26/2012 10:30:34 AM</DATE> <COPYRIGHT_NOTICE>All Rights Reserved.</COPYRIGHT_NOTICE> <LICENSE>newlicense.htm</LICENSE> <DEAL_LEVEL> <PAID_OFF>N</PAID_OFF> </DEAL_LEVEL> </XML_HEADER> 示例python代码如下: from xml.etree import ElementTree as ET tree = ET.parse(r"test.xml") el1 = tree.findall("DEAL_LEVEL/PAID_OFF") # Return None el2 = tree.findall("{http://www.test.com}DEAL_LEVEL/{http://www.test.com}PAID_OFF") # Return <Element '{http://www.test.com}DEAL_LEVEL/PAID_OFF' at 0xb78b90> 虽然它可以工作,但是由于存在名称空间“{http://www.test.com}”,因此在每个标签前添加一个名称空间非常不方便。 如何在使用“find”,“findall”等方法时忽略名称空间?

Python – re.findall返回不需要的结果

re.findall("(100|[0-9][0-9]|[0-9])%", "89%") 这只返回结果[89] ,我需要返回整个89%。 任何想法如何做到这一点?

美丽的汤findAll没有find他们全部

我试图parsing一个网站,并获取与BeautifulSoup.findAll一些信息,但它没有find他们..我使用python3 代码是这样的 #!/usr/bin/python3 from bs4 import BeautifulSoup from urllib.request import urlopen page = urlopen ("http://mangafox.me/directory/") # print (page.read ()) soup = BeautifulSoup (page.read ()) manga_img = soup.findAll ('a', {'class' : 'manga_img'}, limit=None) for manga in manga_img: print (manga['href']) 它只打印他们的一半…