Tag: html content extraction

提取正则expression式匹配的一部分: 我想要一个正则expression式从HTML页面中提取标题。目前我有这个： title = re.search('<title>.*</title>', html, re.IGNORECASE).group() if title: title = title.replace('<title>', '').replace('</title>', '') 是否有一个正则expression式只提取内容，所以我不必删除标签？谢谢！

BeautifulSoup抓住可见的网页文本: 基本上，我想使用BeautifulSoup来严格地抓住网页上的可见文本。比如说，这个网页就是我的testing用例。我主要是想获得正文（文章），甚至可以在这里和那里的几个标签名称。我已经在这个问题中尝试了这个build议，它返回了很多我不想要的<script>标记和html注释。我无法弄清楚函数findAll()所需的参数，以便在网页上获取可见的文本。那么，我应该如何find所有可见的文本，不包括脚本，评论，CSS等？

HTML抓取的选项？: 我正在考虑尝试Beautiful Soup ，一个用于HTML抓取的Python包。还有其他的HTML抓取包我应该看？ Python不是必需的，我其实也对其他语言感兴趣。迄今为止的故事： python 美丽的汤 LXML HTQL Scrapy 机械化 ruby 引入nokogiri angular度来说，Hpricot 机械化 scrAPI scRUBYt！袋熊的Watir 。净 Html敏捷包华廷 Perl的 WWW ::机械化网页式铲运机 Java的标签汤的HtmlUnit networking丰收 jARVEST jsoup 杰里科HTMLparsing器 JavaScript的请求 cheerio artoo 节点骑手 phantomjs PHP GOUTTE htmlSQL PHP简单的HTML DOMparsing器 PHP用CURL刮擦他们中的大多数屏幕刮板

什么是在C＃中parsingHTML的最佳方法？: 我正在寻找一个库/方法来parsing一个HTML文件比通用的XMLparsing库更多的HTML特定的function。

使用Python从HTML文件中提取文本: 我想使用Python从HTML文件中提取文本。如果我从浏览器复制文本并将其粘贴到记事本中，我基本上会得到相同的输出结果。我想要比使用正则表达式更强大的东西，可能会失败，形成不良的HTML。我见过很多人推荐美丽的汤，但是我使用它有一些问题。首先，它收集不需要的文本，例如JavaScript源代码。而且，它没有解释HTML实体。例如，我希望“ 在HTML源文件中被转换为撇号，就像我把浏览器内容粘贴到记事本一样。更新 html2text看起来很有希望。它正确处理HTML实体并忽略JavaScript。但是，它并不完全产生纯文本; 它会产生降价，然后不得不变成纯文本。它没有任何示例或文档，但代码看起来很干净。相关问题：过滤掉HTML标签并在Python中解析实体在Python中将XML / HTML实体转换为Unicode字符串

Interesting Posts

初学Python的练习？

Javascript window.open使用POST传递值

如何添加投影到UIButton？

为什么我不能在Windows上使用TortoiseMerge作为我的git合并工具？

点击EditText外部后如何在android上隐藏软键盘？

如何在PostgreSQL 8.4中将列数据types从字符更改为数字

文档样式和RPC样式通信有什么区别？

在C＃中枚举的方法

“types家庭”与“数据家族”，简而言之？

有没有一个无效的pthread_t编号？

如何在Visual Studio 2017项目中启用C＃7的所有function？

NSMutableArray对象的总大小

你如何部署Angular 2应用程序？

在Python中查找string中多次出现的string

如何处理angular-ui-router解决scheme中的错误