使用C＃正则expression式删除HTML标记

如何使用C＃正则expression式replace/删除所有HTML标记，包括尖括号？有人可以帮助我的代码？

如前所述，您不应该使用正则expression式来处理XML或HTML文档。它们不能很好地处理HTML和XML文档，因为没有办法一般地expression嵌套结构。

你可以使用以下。

String result = Regex.Replace(htmlDocument, @"<[^>]*>", String.Empty);

这将适用于大多数情况下，但会有一些情况下（例如CDATA包含尖括号），这将无法按预期工作。

正确的答案是不要这样做，使用HTML敏捷包。

编辑添加：

为了无耻地从jesse下面的评论中窃取，并且为了避免被指责在这个时候以后不能完全回答这个问题，下面是一个简单的，可靠的代码片断，它使用HTML敏捷包，它可以处理大多数不完美的，反复无常的HTML：

 HtmlDocument doc = new HtmlDocument(); doc.LoadHtml(Properties.Resources.HtmlContents); var text = doc.DocumentNode.SelectNodes("//body//text()").Select(node => node.InnerText); StringBuilder output = new StringBuilder(); foreach (string line in text) { output.AppendLine(line); } string textOnly = HttpUtility.HtmlDecode(output.ToString());

使用正则expression式parsingHTML的情况很less，因为即使在非传统的正则expression式引擎中，如果没有上下文感知，也不能正确parsingHTML。您可以通过RegEx获得部分path，但您需要进行手动validation。

Html敏捷包可以为您提供一个强大的解决scheme，将减less需要手动修复的错误，可能导致天真地对待HTML作为一个上下文无关语法。

正则expression式大多数时候可能会让你获得大部分时间，但在很常见的情况下会失败。如果你能find一个比HTML敏捷包更好的parsing器，那就去吧，但是请不要让这个世界变得更加糟糕的HTML hackery。

这个问题太广泛，无法得到明确的答复。您是否正在讨论从真实世界的HTML文档（如网页）中删除所有标签？如果是这样，你将不得不：

删除<！DOCTYPE声明或<？xml prolog（如果它们存在）
删除所有的SGML评论
删除整个HEAD元素
删除所有的SCRIPT和STYLE元素
做Grabthar知道什么与FORM和TABLE元素
删除剩下的标签
从CDATA部分删除<！[CDATA [和]]>序列，但保留其内容

这只是我的头顶 – 我相信还有更多。一旦你完成了所有这些，你将会得到一些在一些地方一起运行的文字，句子和段落，而在另一些地方则会有大块无用的空白。

但是，假设你正在使用一个片段，你可以简单地删除所有的标签，这里是我将使用的正则expression式：

 @"(?></?\w+)(?>(?:[^>'""]+|'[^']*'|""[^""]*"")*)>"

在他们自己的select中匹配单引号和双引号string足以解决属性值中尖括号的问题。我没有看到任何需要显式匹配标签内的属性名称和其他东西，就像Ryan的答案中的正则expression式一样。第一个select处理所有这一切。

如果你想知道那些(?>...)结构，它们是primefaces组。他们使正则expression式更高效一些，但是更重要的是，它们可以防止失控回溯，这是您在混合交替和嵌套量词时应该始终注意的事情。我真的不认为这会成为一个问题，但我知道如果我不提这个问题，别人会这样做。 😉

当然，这个正则expression式并不完美，但它可能和你所需要的一样好。

 Regex regex = new Regex(@"</?\w+((\s+\w+(\s*=\s*(?:"".*?""|'.*?'|[^'"">\s]+))?)+\s*|\s*)/?>", RegexOptions.Singleline);

资源

@JasonTrue是正确的，剥离HTML标签不应该通过正则expression式来完成。

使用HtmlAgilityPack去除HTML标签非常简单：

 public string StripTags(string input) { var doc = new HtmlDocument(); doc.LoadHtml(input ?? ""); return doc.DocumentNode.InnerText; }

我想回应杰森的回应，虽然有时你需要天真地parsing一些Html，并拉出文本内容。

我需要用一个富文本编辑器创build的Html来完成这个任务，总是很有趣和游戏。

在这种情况下，您可能需要删除一些标签的内容以及标签本身。

在我的情况下，标签被扔进这个组合。有些人可能会觉得我的（非常轻微）不那么天真的实施是一个有用的起点。

  /// <summary> /// Removes all html tags from string and leaves only plain text /// Removes content of <xml></xml> and <style></style> tags as aim to get text content not markup /meta data. /// </summary> /// <param name="input"></param> /// <returns></returns> public static string HtmlStrip(this string input) { input = Regex.Replace(input, "<style>(.|\n)*?</style>",string.Empty); input = Regex.Replace(input, @"<xml>(.|\n)*?</xml>", string.Empty); // remove all <xml></xml> tags and anything inbetween. return Regex.Replace(input, @"<(.|\n)*?>", string.Empty); // remove any tags but not there content "<p>bob<span> johnson</span></p>" becomes "bob johnson" }

尝试正则expression式的方法在这个URL： http : //www.dotnetperls.com/remove-html-tags

 /// <summary> /// Remove HTML from string with Regex. /// </summary> public static string StripTagsRegex(string source) { return Regex.Replace(source, "<.*?>", string.Empty); } /// <summary> /// Compiled regular expression for performance. /// </summary> static Regex _htmlRegex = new Regex("<.*?>", RegexOptions.Compiled); /// <summary> /// Remove HTML from string with compiled Regex. /// </summary> public static string StripTagsRegexCompiled(string source) { return _htmlRegex.Replace(source, string.Empty); }

用这个..

 @"(?></?\w+)(?>(?:[^>'""]+|'[^']*'|""[^""]*"")*)>"

添加.+? 在<[^>]*>并尝试这个正则expression式（基于此）：

 <[^>].+?>

c＃.net正则expression式演示在这里输入图像描述

使用此方法删除标签：

 public string From_To(string text, string from, string to) { if (text == null) return null; string pattern = @"" + from + ".*?" + to; Regex rx = new Regex(pattern, RegexOptions.Compiled | RegexOptions.IgnoreCase); MatchCollection matches = rx.Matches(text); return matches.Count <= 0 ? text : matches.Cast<Match>().Where(match => !string.IsNullOrEmpty(match.Value)).Aggregate(text, (current, match) => current.Replace(match.Value, "")); }

使用C＃正则expression式删除HTML标记

在C ++中debuggingmacros

为什么你会在这段代码中使用一个void指针？

IEnumerator和IEnumerable有什么区别？

为什么一个指向volatile的指针，比如“volatile int * p”，有用？

将可观察的集合转换回常规集合

将PEM转换为PPK文件格式

closures它们后重新打开stdout和stdin文件描述符

非客户在航空玻璃窗上画

什么是C＃使用块，为什么我应该使用它？

在razor文件中的@functions代码块是做什么的，什么时候（如果曾经）我应该使用它？