Tag: html parsing

HTML敏捷包条带标签不在白名单中

我试图创build一个函数,删除不在白名单中的HTML标签和属性。 我有以下的HTML: <b>first text </b> <b>second text here <a>some text here</a> <a>some text here</a> </b> <a>some twxt here</a> 我正在使用HTML敏捷包,我到目前为止的代码是: static List<string> WhiteNodeList = new List<string> { "b" }; static List<string> WhiteAttrList = new List<string> { }; static HtmlNode htmlNode; public static void RemoveNotInWhiteList(out string _output, HtmlNode pNode, List<string> pWhiteList, List<string> attrWhiteList) { // remove all […]

Android的HTML ImageGetter作为AsyncTask

好的,我对这个失去了主意。 我在我的程序parsingHTML的方法。 我想包括内联图像,我的印象是使用Html.fromHtml(string,Html.ImageGetter,Html.TagHandler)将允许这种情况发生。 由于Html.ImageGetter没有实现,所以我写一个。 但是,由于将URLparsing为Drawables需要networking访问,因此我无法在主线程上执行此操作,因此它必须是AsyncTask。 我认为。 但是,当您将ImageGetter作为parameter passing给Html.fromHtml时,它将使用必须重写的getDrawable方法。 因此,无法调用触发doInBackground方法的整个ImageGetter.execute处理,因此无法真正实现这种asynchronous处理。 我是否完全错误,或者更糟的是,这是不可能的? 谢谢

HTML抓取的选项?

我正在考虑尝试Beautiful Soup ,一个用于HTML抓取的Python包。 还有其他的HTML抓取包我应该看? Python不是必需的,我其实也对其他语言感兴趣。 迄今为止的故事: python 美丽的汤 LXML HTQL Scrapy 机械化 ruby 引入nokogiri angular度来说,Hpricot 机械化 scrAPI scRUBYt! 袋熊 的Watir 。净 Html敏捷包 华廷 Perl的 WWW ::机械化 网页式铲运机 Java的 标签汤 的HtmlUnit networking丰收 jARVEST jsoup 杰里科HTMLparsing器 JavaScript的 请求 cheerio artoo 节点骑手 phantomjs PHP GOUTTE htmlSQL PHP简单的HTML DOMparsing器 PHP用CURL刮擦 他们中的大多数 屏幕刮板