Tag: html content extraction

提取正则expression式匹配的一部分

我想要一个正则expression式从HTML页面中提取标题。 目前我有这个: title = re.search('<title>.*</title>', html, re.IGNORECASE).group() if title: title = title.replace('<title>', '').replace('</title>', '') 是否有一个正则expression式只提取内容,所以我不必删除标签? 谢谢!

BeautifulSoup抓住可见的网页文本

基本上,我想使用BeautifulSoup来严格地抓住网页上的可见文本 。 比如说, 这个网页就是我的testing用例。 我主要是想获得正文(文章),甚至可以在这里和那里的几个标签名称。 我已经在这个问题中尝试了这个build议,它返回了很多我不想要的<script>标记和html注释。 我无法弄清楚函数findAll()所需的参数,以便在网页上获取可见的文本。 那么,我应该如何find所有可见的文本,不包括脚本,评论,CSS等?

HTML抓取的选项?

我正在考虑尝试Beautiful Soup ,一个用于HTML抓取的Python包。 还有其他的HTML抓取包我应该看? Python不是必需的,我其实也对其他语言感兴趣。 迄今为止的故事: python 美丽的汤 LXML HTQL Scrapy 机械化 ruby 引入nokogiri angular度来说,Hpricot 机械化 scrAPI scRUBYt! 袋熊 的Watir 。净 Html敏捷包 华廷 Perl的 WWW ::机械化 网页式铲运机 Java的 标签汤 的HtmlUnit networking丰收 jARVEST jsoup 杰里科HTMLparsing器 JavaScript的 请求 cheerio artoo 节点骑手 phantomjs PHP GOUTTE htmlSQL PHP简单的HTML DOMparsing器 PHP用CURL刮擦 他们中的大多数 屏幕刮板

什么是在C#中parsingHTML的最佳方法?

我正在寻找一个库/方法来parsing一个HTML文件比通用的XMLparsing库更多的HTML特定的function。

使用Python从HTML文件中提取文本

我想使用Python从HTML文件中提取文本。 如果我从浏览器复制文本并将其粘贴到记事本中,我基本上会得到相同的输出结果。 我想要比使用正则表达式更强大的东西,可能会失败,形成不良的HTML。 我见过很多人推荐美丽的汤,但是我使用它有一些问题。 首先,它收集不需要的文本,例如JavaScript源代码。 而且,它没有解释HTML实体。 例如,我希望“ 在HTML源文件中被转换为撇号,就像我把浏览器内容粘贴到记事本一样。 更新 html2text看起来很有希望。 它正确处理HTML实体并忽略JavaScript。 但是,它并不完全产生纯文本; 它会产生降价,然后不得不变成纯文本。 它没有任何示例或文档,但代码看起来很干净。 相关问题: 过滤掉HTML标签并在Python中解析实体 在Python中将XML / HTML实体转换为Unicode字符串