Tag: findall

Python ElementTree模块：如何在使用方法“find”，“findall”时忽略XML文件的命名空间来定位匹配元素，: 我想使用“findall”的方法来查找ElementTree模块中源xml文件的一些元素。但是，源XML文件（test.xml）具有名称空间。我截断了一部分xml文件作为示例： <?xml version="1.0" encoding="iso-8859-1"?> <XML_HEADER xmlns="http://www.test.com"> <TYPE>Updates</TYPE> <DATE>9/26/2012 10:30:34 AM</DATE> <COPYRIGHT_NOTICE>All Rights Reserved.</COPYRIGHT_NOTICE> <LICENSE>newlicense.htm</LICENSE> <DEAL_LEVEL> <PAID_OFF>N</PAID_OFF> </DEAL_LEVEL> </XML_HEADER> 示例python代码如下： from xml.etree import ElementTree as ET tree = ET.parse(r"test.xml") el1 = tree.findall("DEAL_LEVEL/PAID_OFF") # Return None el2 = tree.findall("{http://www.test.com}DEAL_LEVEL/{http://www.test.com}PAID_OFF") # Return <Element '{http://www.test.com}DEAL_LEVEL/PAID_OFF' at 0xb78b90> 虽然它可以工作，但是由于存在名称空间“{http://www.test.com}”，因此在每个标签前添加一个名称空间非常不方便。如何在使用“find”，“findall”等方法时忽略名称空间？

Python – re.findall返回不需要的结果: re.findall("(100|[0-9][0-9]|[0-9])%", "89%") 这只返回结果[89] ，我需要返回整个89％。任何想法如何做到这一点？

美丽的汤findAll没有find他们全部: 我试图parsing一个网站，并获取与BeautifulSoup.findAll一些信息，但它没有find他们..我使用python3 代码是这样的 #!/usr/bin/python3 from bs4 import BeautifulSoup from urllib.request import urlopen page = urlopen ("http://mangafox.me/directory/") # print (page.read ()) soup = BeautifulSoup (page.read ()) manga_img = soup.findAll ('a', {'class' : 'manga_img'}, limit=None) for manga in manga_img: print (manga['href']) 它只打印他们的一半…