Tag: 美丽的

用pip安装美丽的汤

我正在尝试在Python 2.7中使用pip来安装BeautifulSoup。 我不断收到错误消息,并不明白为什么。 我按照说明安装了pip,安装到以下目录: c:\Python27\Scripts\pip.exe ,然后我尝试将它添加到path中,然后运行pip install package命令。 尝试了两种不同的方式: import sys sys.path.append('C:\\Python27\\Scripts\\pip.exe') pip install beautifulsoup4 import sys sys.path.append('C:\\Python27\\Scripts') pip install beautifulsoup4 都给我这个错误信息: >>> pip install beautifulsoup4 SyntaxError: invalid syntax shell突出显示“install”一词,并说这是无效的语法。 我不知道发生了什么,所以任何帮助将不胜感激。

bs4.FeatureNotFound:找不到具有您请求的function的树生成器:lxml。 你需要安装一个parsing器库吗?

… soup = BeautifulSoup(html, "lxml") File "/Library/Python/2.7/site-packages/bs4/__init__.py", line 152, in __init__ % ",".join(features)) bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library? 上述输出在我的terminal上。 我在Mac OS 10.7.x上。 我有Python 2.7.1,并遵循本教程获得美丽的汤和lxml,这两个都安装成功,并与一个单独的testing文件位于这里工作 。 在导致这个错误的Python脚本中,我已经包含这一行: from pageCrawler import comparePages并在pageCrawler文件中包含了以下两行: from bs4 import BeautifulSoup from urllib2 import urlopen 任何帮助找出问题是什么,以及如何解决将不胜感激。

使用BeautifulSoup来查找包含特定文本的HTML标签

我试图获取HTML文档中包含以下模式的文本元素:#\ S {11} <h2> this is cool #12345678901 </h2> 所以,以前会使用: soup('h2',text=re.compile(r' #\S{11}')) 结果会是这样的: [u'blahblah #223409823523', u'thisisinteresting #293845023984'] 我能够得到所有匹配的文本(见上面的行)。 但是我想要文本的父元素匹配,所以我可以使用它作为遍历文档树的起点。 在这种情况下,我想要所有的h2元素返回,而不是文本匹配。 想法?

如何使用美丽的汤find节点的孩子

我想获取<li>所有<a>标签 <div> <li class="test"> <a>link1</a> <ul> <li> <a>link2</a> </li> </ul> </li> </div> 我知道如何find像这样的特定类的元素 soup.find("li", { "class" : "test" }) 但我不知道如何find<li class=test>所有孩子,而不是其他人 就像我想select <a> link1 </a>

我可以使用BeautifulSoup删除脚本标记吗?

脚本标签及其所有内容都可以使用BeautifulSoup从HTML中删除,还是必须使用正则expression式或其他内容?

为什么使用BeautifulSoup和IDLE获得recursion错误?

我正在按照教程来学习如何使用BeautifulSoup。 我正试图从我下载的html页面上的url中删除名称。 我已经在这方面做得很好。 from bs4 import BeautifulSoup soup = BeautifulSoup(open("43rd-congress.html")) final_link = soup.pa final_link.decompose() links = soup.find_all('a') for link in links: print link 但是当我进入这个下一部分 from bs4 import BeautifulSoup soup = BeautifulSoup(open("43rd-congress.html")) final_link = soup.pa final_link.decompose() links = soup.find_all('a') for link in links: names = link.contents[0] fullLink = link.get('href') print names print fullLink 我得到这个错误 Traceback (most […]

beautifulsoup findAll find_all

我想用Pythonparsing一个html文件,我使用的模块是美丽的。 我使用之后,发生了一些奇怪的事情。据说函数“find_all”是 和“findAll”一样,但我已经试过了。 但它是不同的。 谁能告诉我不同​​? import urllib, urllib2, cookielib from BeautifulSoup import * site = "http://share.dmhy.org/topics/list?keyword=TARI+TARI+team_id%3A407" rqstr = urllib2.Request(site) rq = urllib2.urlopen(rqstr) fchData = rq.read() soup = BeautifulSoup(fchData) t = soup.findAll('tr') print t

UnicodeEncodeError:'charmap'编解码器不能编码字符

我试图刮一个网站,但它给了我一个错误。 我使用下面的代码: import urllib.request from bs4 import BeautifulSoup get = urllib.request.urlopen("https://www.website.com/") html = get.read() soup = BeautifulSoup(html) print(soup) 我收到以下错误: File "C:\Python34\lib\encodings\cp1252.py", line 19, in encode return codecs.charmap_encode(input,self.errors,encoding_table)[0] UnicodeEncodeError: 'charmap' codec can't encode characters in position 70924-70950: character maps to <undefined> 我能做些什么来解决这个问题?

如何按类查找元素

我无法使用Beautifulsoupparsing具有“class”属性的html元素。 代码看起来像这样 soup = BeautifulSoup(sdata) mydivs = soup.findAll('div') for div in mydivs: if (div["class"]=="stylelistrow"): print div 脚本结束后,我在同一行发生错误。 File "./beautifulcoding.py", line 130, in getlanguage if (div["class"]=="stylelistrow"): File "/usr/local/lib/python2.6/dist-packages/BeautifulSoup.py", line 599, in __getitem__ return self._getAttrMap()[key] KeyError: 'class' 我如何摆脱或这个错误?

我们可以用BeautifulSoup来使用xpath吗?

我正在使用BeautifulSoup刮一个url,我有以下代码 import urllib import urllib2 from BeautifulSoup import BeautifulSoup url = "http://www.example.com/servlet/av/ResultTemplate=AVResult.html" req = urllib2.Request(url) response = urllib2.urlopen(req) the_page = response.read() soup = BeautifulSoup(the_page) soup.findAll('td',attrs={'class':'empformbody'}) 现在在上面的代码中,我们可以使用findAll来获取与它们相关的标签和信息,但是我想使用xpath,如果可能的话,可以使用xpath和BeautifulSoup,任何人都可以给我一个示例代码,以便它更有帮助。