在Python中parsingHTML

如果我不能使用BeautifulSoup或lxml，那么parsingHTML的最佳方法是什么？我有一些使用SGMLlib的代码，但是它有点低级，现在已经被弃用了。

我宁愿如果它可能会造成一些格式不正确的HTML，虽然我很确定大部分的input将是非常干净的。

Python有一个本地的HTMLparsing器，但是整洁的包装尼克build议也可能是一个坚实的select。 Tidy是一个非常普通的图书馆，（用C写的）？

也许μTidylib将满足您的需求？

您可以使用Pallet（ MacPorts官方GUI ）在Mac（OS X）上轻松无缝地安装lxml和许多其他python模块

模块名称是py27-lxml。容易如1,2,3。

http://www.xmlhack.com/read.php?item=1392 http://sourceforge.net/projects/pirxx/

http://pyxml.sourceforge.net/topics/

我没有太多的python经验，但是我过去曾经使用Xerces（来自Apache基金会），并发现它非常有用。学习曲线也不错，虽然我不是从python的angular度来的。我build议你考虑一下。（前两个链接，包括讨论python接口到Xerces和最后一个是第一个谷歌命中“python xml”）。

htql擅长处理格式错误的html：

http://htql.net/

html5lib很好：
http://code.google.com/p/html5lib/

更新：上面的链接已损坏。上面的第三方镜像可以通过https://github.com/html5lib/gcode-import进行访问;

在Python中parsingHTML

HTMLparsing如果不使用正则expression式，如何工作？

在PHP中使用preg_replace时如何获得匹配结果？

如何使用Node.jsparsingHTML页面

用jQueryparsing远程内容的最佳做法是什么？

使用正则expression式来parsingHTML：为什么不呢？

C＃：HtmlAgilityPack提取内部文本

JavaScript：如何从string中去除HTML标签？

批处理脚本获取HTML网站和parsing内容（没有wget，curl或其他外部应用程序）

哪个HTMLparsing器是最好的？

在IE浏览器中的HTML分析器问题