Tag: parsing

Python代码从string中删除HTML标签

我有这样的文字: text = """<div> <h1>Title</h1> <p>A long text…….. </p> <a href=""> a link </a> </div>""" 使用纯Python,没有外部模块我想要这样: >>> print remove_tags(text) Title A long text….. a link 我知道我可以使用lxml.html.fromstring(text).text_content()来做到这一点,但我需要在纯Python中使用内置或std库来实现2.6+ 我怎样才能做到这一点?

Html Agility Pack是否仍然是最好的.NET HTMLparsing器?

Html Agility Pack是前段时间给出的一个StackOverflow问题的答案,它仍然是最好的select? 还有什么其他的select应该考虑? 有更轻量级的东西吗?

PHP:在括号内提取文本的最佳方法?

在括号之间提取文本集的最好/最有效的方法是什么? 假设我想以最有效的方式从string“忽略除此(文本)以外的所有内容”中得到string“text”。 到目前为止,我所提出的最好的是: $fullString = "ignore everything except this (text)"; $start = strpos('(', $fullString); $end = strlen($fullString) – strpos(')', $fullString); $shortString = substr($fullString, $start, $end); 有一个更好的方法吗? 我知道一般来说,使用正则expression式往往效率较低,但除非我能减less函数调用次数,否则这可能是最好的方法? 思考?

如何在Lucene QueryParser中指定两个字段?

我读了如何将QueryParser中的多个字段? 但我没有得到它。 目前我有一个非常奇怪的build筑,如: parser = New QueryParser("bodytext", analyzer) parser2 = New QueryParser("title", analyzer) query = parser.Parse(strSuchbegriff) query2 = parser.Parse(strSuchbegriff) 我能做些什么,如: parser = New QuerParser ("bodytext" , "title",analyzer) query =parser.Parse(strSuchbegriff) 所以parsing器在字段“标题”中查找字段“bodytext”中的search词。

有没有一个通用的Parse()函数,将string转换为任何types使用parsing?

我想根据generics返回types将string转换为genericstypes,如int或date或long 。 基本上像Parse<T>(String)这样的函数返回一个Ttypes的项目。 例如,如果一个int被传递,函数应该在内部执行int.parse 。

在GAE上parsing完全有效的XML时,“prolog中不允许使用内容”

在过去的48小时里,我一直在对付这个绝对令人愤怒的虫子,所以我想我最终会扔在毛巾上,在我把笔记本电脑从窗户里扔出去之前,先试着问这里。 我试图从我对AWS SimpleDB的调用中parsing响应XML。 答案刚刚回来就好了; 例如,它可能看起来像: <?xml version="1.0" encoding="utf-8"?> <ListDomainsResponse xmlns="http://sdb.amazonaws.com/doc/2009-04-15/"> <ListDomainsResult> <DomainName>Audio</DomainName> <DomainName>Course</DomainName> <DomainName>DocumentContents</DomainName> <DomainName>LectureSet</DomainName> <DomainName>MetaData</DomainName> <DomainName>Professors</DomainName> <DomainName>Tag</DomainName> </ListDomainsResult> <ResponseMetadata> <RequestId>42330b4a-e134-6aec-e62a-5869ac2b4575</RequestId> <BoxUsage>0.0000071759</BoxUsage> </ResponseMetadata> </ListDomainsResponse> 我将这个XML传递给parsing器 XMLEventReader eventReader = xmlInputFactory.createXMLEventReader(response.getContent()); 并调用eventReader.nextEvent(); 一堆时间来获得我想要的数据。 这是奇怪的部分 – 它在本地服务器内部工作得很好。 回答来了,我parsing,大家都很开心。 问题是,当我将代码部署到Google App Engine时,传出的请求仍然有效,并且响应XML似乎与我完全相同且正确,但响应无法parsing,但出现以下exception: com.amazonaws.http.HttpClient handleResponse: Unable to unmarshall response (ParseError at [row,col]:[1,1] Message: Content is not allowed in prolog.): <?xml […]

最好的JavaScriptdate分析器和格式器?

自从我开始使用jQuery以来,我一直在做更多的JavaScript开发。 我有需要parsing不同的date格式,然后将其显示为另一种格式。 你知道有这么好的工具吗? 你会推荐哪一个?

Convert.ToBoolean(string)和Boolean.Parse(string)有什么区别?

这两种方法有什么区别 Convert.ToBoolean() 和 Boolean.Parse() ? 有没有任何理由使用这个或另一个? 另外,还有其他的type.Parse()方法,我应该注意吗? 谢谢, 马特

Groovystring到date

我正在用Groovy编码 我目前正在尝试转换一个string,我有一个约会,而不必做任何太乏味的事情。 String theDate = "28/09/2010 16:02:43"; def newdate = new Date().parse("d/M/yyyy H:m:s", theDate) 输出: Tue Aug 10 16:02:43 PST 2010 上面的代码工作得很好,但是当我的string变成如下所示: String testDate = "Tue Aug 10 16:02:43 PST 2010" def newerdate = new Date().parse("d/M/yyyy H:m:s", testDate) 它告诉我“Tue没有这样的价值”。 我试图在dateparsing中抛出一个“E”,但它表示date不能被parsing。 有人可以解释我应该如何parsing第二个例子吗?

什么是从Javascript中的用户inputparsingdate对象的最佳方式?

我正在为用户input文本input(日历应用程序)的一天中的时间的窗体小部件。 使用JavaScript(我们使用的是jQuery FWIW),我想findparsing用户input到JavaScript Date()对象中的文本的最佳方式,以便我可以轻松地对其进行比较和其他操作。 我尝试了parse()方法,这对我的需求来说太挑剔了。 我期望它能够成功parsing下面的示例input时间(除了其他逻辑上相似的时间格式)与相同的Date()对象: 1:00 PM 1:00 PM 1:00 p 1:00 PM 1:00 PM。 1:00P 下午1点 下午1点 1页 下午1点 下午1点 1P 13:00 13 我想我可能会使用正则expression式来分割input,并提取我想用来创build我的Date()对象的信息。 做这个的最好方式是什么?