正则expression式匹配DNS主机名或IP地址?

有没有人有一个正则expression式,将符合任何合法的DNS主机名或IP地址?

编写95%的时间很容易,但是我希望能够得到经过良好testing的东西,以便与DNS主机名的最新RFC规范完全匹配。

您可以单独使用下列正则expression式,也可以将它们组合成一个联合ORexpression式。

ValidIpAddressRegex = "^(([0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\.){3}([0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])$"; ValidHostnameRegex = "^(([a-zA-Z0-9]|[a-zA-Z0-9][a-zA-Z0-9\-]*[a-zA-Z0-9])\.)*([A-Za-z0-9]|[A-Za-z0-9][A-Za-z0-9\-]*[A-Za-z0-9])$"; 

ValidIpAddressRegex与有效的IP地址和ValidHostnameRegex有效的主机名匹配。 根据您使用的语言\可能必须用\转义。


根据RFC 1123, ValidHostnameRegex有效。 最初, RFC 952指定主机名段不能以数字开头。

http://en.wikipedia.org/wiki/Hostname

RFC 952中主机名称的原始规范要求标签不能以数字或连字符开头,也不能以连字符结尾。 但是,随后的规范( RFC 1123 )允许主机名标签以数字开始。

 Valid952HostnameRegex = "^(([a-zA-Z]|[a-zA-Z][a-zA-Z0-9\-]*[a-zA-Z0-9])\.)*([A-Za-z]|[A-Za-z][A-Za-z0-9\-]*[A-Za-z0-9])$"; 

smink的hostname正则expression式并不遵守主机名中单个标签长度的限制。 有效主机名中的每个标签长度不得超过63个八位字节。

  ValidHostnameRegex =“^([A-ZA-Z0-9] | [A-ZA-Z0-9] [A-ZA-Z0-9 \  - ] {0,61} [A-ZA-Z0-9]) \
 (\([A-ZA-Z0-9] | [A-ZA-Z0-9] [A-ZA-Z0-9 \  - ] {0,61} [A-ZA-Z0-9])) * $” 

请注意,第一行(上面)的末尾的反斜杠是用于拆分长行的Unix shell语法。 这不是正则expression式本身的一部分。

下面是一行中的正则expression式:

  ^([A-ZA-Z0-9] | [A-ZA-Z0-9] [A-ZA-Z0-9 \  - ] {0,61} [A-ZA-Z0-9])(\。 ([A-ZA-Z0-9] | [A-ZA-Z0-9] [A-ZA-Z0-9 \  - ] {0,61} [A-ZA-Z0-9]))* $ 

您还应该单独检查主机名的总长度不能超过255个字符 。 欲了解更多信息,请参阅RFC-952和RFC-1123。

要匹配有效的IP地址,请使用以下正则expression式:

 (25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)(\.(25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)){3} 

代替:

 ([01]?[0-9][0-9]?|2[0-4][0-9]|25[0-5])(\.([01]?[0-9][0-9]?|2[0-4][0-9]|25[0-5])){3} 

说明

许多正则expression式引擎匹配OR序列中的第一种可能性。 例如,尝试下面的正则expression式:

 10.48.0.200 

testing

testing好与差之间的差异

我似乎无法编辑顶部的post,所以我会在这里添加我的答案。

对于主机名 – 简单的答案,egrep例子在这里 – http://www.linuxinsight.com/how_to_grep_for_ip_addresses_using_the_gnu_egrep_utility.html

 egrep '([[:digit:]]{1,3}\.){3}[[:digit:]]{1,3}' 

虽然在第一个八位字节中没有考虑像0这样的值,并且值大于254(ip地址)或255(networking掩码)。 也许额外的if语句会有所帮助。

至于合法的DNS主机名,假设你只是检查互联网主机名(而不是内部网),我写了下面的剪切,混合使用shell / php,但它应该适用于任何正则expression式。

首先到ietf网站下载并parsing合法的1级域名列表:

 tld=$(curl -s http://data.iana.org/TLD/tlds-alpha-by-domain.txt | sed 1d | cut -f1 -d'-' | tr '\n' '|' | sed 's/\(.*\)./\1/') echo "($tld)" 

这应该给你一个很好的代码重新检查顶级域名的合法性,如.com .org或.ca

然后根据这里find的指南添加expression式的第一部分 – http://www.domainit.com/support/faq.mhtml?category=Domain_FAQ&question=9(任何字母数字组合和' – '符号,短划线不应该在八位字节的开始或结束。

 (([a-z0-9]+|([a-z0-9]+[-]+[a-z0-9]+))[.])+ 

然后把它们放在一起(PHP的preg_match例子):

 $pattern = '/^(([a-z0-9]+|([a-z0-9]+[-]+[a-z0-9]+))[.])+(AC|AD|AE|AERO|AF|AG|AI|AL|AM|AN|AO|AQ|AR|ARPA|AS|ASIA|AT|AU|AW|AX|AZ|BA|BB|BD|BE|BF|BG|BH|BI|BIZ|BJ|BM|BN|BO|BR|BS|BT|BV|BW|BY|BZ|CA|CAT|CC|CD|CF|CG|CH|CI|CK|CL|CM|CN|CO|COM|COOP|CR|CU|CV|CX|CY|CZ|DE|DJ|DK|DM|DO|DZ|EC|EDU|EE|EG|ER|ES|ET|EU|FI|FJ|FK|FM|FO|FR|GA|GB|GD|GE|GF|GG|GH|GI|GL|GM|GN|GOV|GP|GQ|GR|GS|GT|GU|GW|GY|HK|HM|HN|HR|HT|HU|ID|IE|IL|IM|IN|INFO|INT|IO|IQ|IR|IS|IT|JE|JM|JO|JOBS|JP|KE|KG|KH|KI|KM|KN|KP|KR|KW|KY|KZ|LA|LB|LC|LI|LK|LR|LS|LT|LU|LV|LY|MA|MC|MD|ME|MG|MH|MIL|MK|ML|MM|MN|MO|MOBI|MP|MQ|MR|MS|MT|MU|MUSEUM|MV|MW|MX|MY|MZ|NA|NAME|NC|NE|NET|NF|NG|NI|NL|NO|NP|NR|NU|NZ|OM|ORG|PA|PE|PF|PG|PH|PK|PL|PM|PN|PR|PRO|PS|PT|PW|PY|QA|RE|RO|RS|RU|RW|SA|SB|SC|SD|SE|SG|SH|SI|SJ|SK|SL|SM|SN|SO|SR|ST|SU|SV|SY|SZ|TC|TD|TEL|TF|TG|TH|TJ|TK|TL|TM|TN|TO|TP|TR|TRAVEL|TT|TV|TW|TZ|UA|UG|UK|US|UY|UZ|VA|VC|VE|VG|VI|VN|VU|WF|WS|XN|XN|XN|XN|XN|XN|XN|XN|XN|XN|XN|YE|YT|YU|ZA|ZM|ZW)[.]?$/i'; if (preg_match, $pattern, $matching_string){ ... do stuff } 

您可能还想添加一个if语句来检查您检查的string是否less于256个字符 – http://www.ops.ietf.org/lists/namedroppers/namedroppers.2003/msg00964.html

我认为这是最好的IPvalidation正则expression式。 请检查一次!

 ^(([01]?[0-9]?[0-9]|2([0-4][0-9]|5[0-5]))\.){3}([01]?[0-9]?[0-9]|2([0-4][0-9]|5[0-5]))$ 
 def isValidHostname(hostname): if len(hostname) > 255: return False if hostname[-1:] == ".": hostname = hostname[:-1] # strip exactly one dot from the right, # if present allowed = re.compile("(?!-)[AZ\d-]{1,63}(?<!-)$", re.IGNORECASE) return all(allowed.match(x) for x in hostname.split(".")) 
 /^(?:[a-zA-Z0-9]+|[a-zA-Z0-9][-a-zA-Z0-9]+[a-zA-Z0-9])(?:\.[a-zA-Z0-9]+|[a-zA-Z0-9][-a-zA-Z0-9]+[a-zA-Z0-9])?$/ 

本地主机жеесть

 "^((\\d{1,2}|1\\d{2}|2[0-4]\\d|25[0-5])\.){3}(\\d{1,2}|1\\d{2}|2[0-4]\\d|25[0-5])$" 

尝试这个:

 ((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?) 

它适用于我的情况。

这里是我在Ant中使用的一个正则expression式,用于从ANT_OPTS中获取代理主机IP或主机名。 这被用来获取代理IP,这样我就可以在为分叉的JVMconfiguration代理之前运行Ant“isreachable”testing。

 ^.*-Dhttp\.proxyHost=(\w{1,}\.\w{1,}\.\w{1,}\.*\w{0,})\s.*$ 

我发现这个IP地址工作得很好。 它validation像顶部的答案,但它也确保了IP是孤立的,所以没有文本或更多的数字/小数是之前或之后的IP。

?(?!<\ S)(:(:\ d | [1-9] \ d | 1 \ d \ d | 2 [0-4] \ d | 25 [0-5])\ C |。 \ b){7}(?!\ S)

 AddressRegex = "^(ftp|http|https):\/\/([0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}:[0-9]{1,5})$"; HostnameRegex = /^(ftp|http|https):\/\/([a-z0-9]+\.)?[a-z0-9][a-z0-9-]*((\.[az]{2,6})|(\.[az]{2,6})(\.[az]{2,6}))$/i 

这个re只用于这个types的validation

工作只有 http://www.kk.com http://www.kk.co.in

不适用于

http://www.kk.com/ http://www.kk.co.in.kk

http://www.kk.com/dfas http://www.kk.co.in/

 public string GetPublicIP() { var direction = string.Empty; var request = WebRequest.Create("http://checkip.dyndns.org/"); using (var response = request.GetResponse()) using (var stream = new StreamReader(response.GetResponseStream())) { direction = stream.ReadToEnd(); } var matches = matchIp.Match(direction); return matches.Captures.Count != 0 ? matches.Captures[0].Value : string.Empty; } 

这适用于有效的IP地址:

 regex = '^([0-9]|[1-9][0-9]|[1][0-9][0-9]|[2][0-5][0-5])[.]([0-9]|[1-9][0-9]|[1][0-9][0-9]|[2][0-5][0-5])[.]([0-9]|[1-9][0-9]|[1][0-9][0-9]|[2][0-5][0-5])[.]([0-9]|[1-9][0-9]|[1][0-9][0-9]|[2][0-5][0-5])$' 

关于IP地址,似乎是否包含前导零有一些争议。 这曾经是一种普遍的做法,并且已经被普遍接受,所以我认为不pipe目前的偏好,他们都应该被标记为有效。 还有一些含糊不清的string之前和之后的文本应该validation,再次,我认为它应该。 1.2.3.4是一个有效的IP,但是1.2.3.4.5不是,1.2.3.4部分和2.3.4.5部分都不应该导致匹配。 一些问题可以用这个expression式来处理:

 grep -E '(^|[^[:alnum:]+)(([0-1]?[0-9]{1,2}|2[0-4][0-9]|25[0-5])\.){3}([0-1]?[0-9]{1,2}|2[0-4][0-9]|25[0-5])([^[:alnum:]]|$)' 

这里不幸的部分是validation八位字节的正则expression式在很多提供的解决scheme中都是重复的。 虽然这比模式的实例更好,但是如果正在使用的正则expression式支持子例程,则可以完全消除重复。 下一个示例使用grep-P开关启用这些函数,并且还利用了前视和后视function。 (我select的函数名是'o',对于八位字节我可以使用'八位字节'作为名字,但是想要简洁。

 grep -P '(?<![\d\w\.])(?<o>([0-1]?[0-9]{1,2}|2[0-4][0-9]|25[0-5]))(\.\g<o>){3}(?![\d\w\.])' 

如果IP地址是以句子forms存在的文本文件,那么点的处理可能实际上会产生一个错误的否定结果,因为一段时间后可能会出现这种情况,而不会成为虚线符号的一部分。 上面的一个变种可以解决这个问题:

 grep -P '(?<![\d\w\.])(?<x>([0-1]?[0-9]{1,2}|2[0-4][0-9]|25[0-5]))(\.\g<x>){3}(?!([\d\w]|\.\d))' 
 >>> my_hostname = "testhostn.ame" >>> print bool(re.match("^(([a-zA-Z]|[a-zA-Z][a-zA-Z0-9\-]*[a-zA-Z0-9])\.)*([A-Za-z]|[A-Za-z][A-Za-z0-9\-]*[A-Za-z0-9])$", my_hostname)) True >>> my_hostname = "testhostn....ame" >>> print bool(re.match("^(([a-zA-Z]|[a-zA-Z][a-zA-Z0-9\-]*[a-zA-Z0-9])\.)*([A-Za-z]|[A-Za-z][A-Za-z0-9\-]*[A-Za-z0-9])$", my_hostname)) False >>> my_hostname = "testhostn.A.ame" >>> print bool(re.match("^(([a-zA-Z]|[a-zA-Z][a-zA-Z0-9\-]*[a-zA-Z0-9])\.)*([A-Za-z]|[A-Za-z][A-Za-z0-9\-]*[A-Za-z0-9])$", my_hostname)) True 

这个怎么样?

 ([0-9]{1,3}\.){3}[0-9]{1,3} 

在php: filter_var(gethostbyname($dns), FILTER_VALIDATE_IP) == true ? 'ip' : 'not ip' filter_var(gethostbyname($dns), FILTER_VALIDATE_IP) == true ? 'ip' : 'not ip'

检查主机名如mywebsite.co.in,thangaraj.name,18thangaraj.in,thangaraj106.in等,

 [az\d+].*?\\.\w{2,4}$ 

我想这个简单的正则expression式匹配模式的IP地址匹配\ D + [。] \ D + [。] \ D + [。] \ D +

在这里检查ipv4解决scheme。 似乎现在没有必要在ipv6上。