在Python中parsingHTML

如果我不能使用BeautifulSoup或lxml,那么parsingHTML的最佳方法是什么? 我有一些使用SGMLlib的代码,但是它有点低级,现在已经被弃用了。

我宁愿如果它可能会造成一些格式不正确的HTML,虽然我很确定大部分的input将是非常干净的。

Python有一个本地的HTMLparsing器 ,但是整洁的包装尼克build议也可能是一个坚实的select。 Tidy是一个非常普通的图书馆,(用C写的)?

也许μTidylib将满足您的需求?

您可以使用Pallet( MacPorts官方GUI )在Mac(OS X)上轻松无缝地安装lxml和许多其他python模块

模块名称是py27-lxml。 容易如1,2,3。

http://www.xmlhack.com/read.php?item=1392 http://sourceforge.net/projects/pirxx/

http://pyxml.sourceforge.net/topics/

我没有太多的python经验,但是我过去曾经使用Xerces(来自Apache基金会),并发现它非常有用。 学习曲线也不错,虽然我不是从python的angular度来的。 我build议你考虑一下。 (前两个链接,包括讨论python接口到Xerces和最后一个是第一个谷歌命中“python xml”)。

htql擅长处理格式错误的html:

http://htql.net/

html5lib很好:
http://code.google.com/p/html5lib/

更新:上面的链接已损坏。 上面的第三方镜像可以通过https://github.com/html5lib/gcode-import进行访问;