ChatGPT解决这个技术问题 Extra ChatGPT

匹配 DNS 主机名或 IP 地址的正则表达式?

有没有人有一个方便的正则表达式来匹配任何合法的 DNS 主机名或 IP 地址?

编写一个在 95% 的时间内都能正常工作的程序很容易,但我希望得到一些经过充分测试的东西,以完全匹配 DNS 主机名的最新 RFC 规范。

请注意:可以查明字符串是否为有效的 IPv4 地址并查明它是否为有效的主机名。但是:无法确定字符串是有效的 IPv4 地址还是有效的主机名。原因:任何匹配为有效 IPv4 地址的字符串也将是一个有效的主机名,可以由 DNS 服务器解析为不同的 IP 地址。

C
Community

您可以单独使用以下正则表达式,也可以将它们组合在一个联合 OR 表达式中。

ValidIpAddressRegex = "^(([0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\.){3}([0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])$";

ValidHostnameRegex = "^(([a-zA-Z0-9]|[a-zA-Z0-9][a-zA-Z0-9\-]*[a-zA-Z0-9])\.)*([A-Za-z0-9]|[A-Za-z0-9][A-Za-z0-9\-]*[A-Za-z0-9])$";

ValidIpAddressRegex 匹配有效的 IP 地址和 ValidHostnameRegex 有效的主机名。根据您使用的语言,\ 可能必须使用 \ 进行转义。

ValidHostnameRegex 根据 RFC 1123 有效。最初,RFC 952 指定主机名段不能以数字开头。

http://en.wikipedia.org/wiki/Hostname

RFC 952 中主机名的原始规范要求标签不能以数字或连字符开头,也不能以连字符结尾。但是,随后的规范 (RFC 1123) 允许主机名标签以数字开头。

Valid952HostnameRegex = "^(([a-zA-Z]|[a-zA-Z][a-zA-Z0-9\-]*[a-zA-Z0-9])\.)*([A-Za-z]|[A-Za-z][A-Za-z0-9\-]*[A-Za-z0-9])$";

这里:stackoverflow.com/questions/4645126/… - 我解释了以数字开头的名称也被认为是有效的。此外,只有一个点是有问题的问题。对此有更多反馈会很棒。
您可能想要添加 IPv6。 OP 没有指定地址的什么类型。 (顺便可以找到here
在人们盲目地在他们的代码中使用它之前,请注意它并不完全准确。它忽略了 RFC2181:“DNS 本身只对可用于识别资源记录的特定标签设置了一个限制。该限制与标签的长度和全名有关。任何一个标签的长度都限制在1 和 63 个八位字节。完整的域名限制为 255 个八位字节(包括分隔符)。
@UserControl:必须先将非拉丁(Punycoded)主机名转换为 ASCII 格式(éxämplè.com = xn--xmpl-loa1ab.com),然后再进行验证。
您的主机名表达式匹配一些无效值:我尝试了 123.456.789.0,它说它是一个有效的主机名。
S
Sakari A. Maaranen

smink 的主机名正则表达式不遵守主机名中单个标签长度的限制。有效主机名中的每个标签的长度不得超过 63 个八位字节。

ValidHostnameRegex="^([a-zA-Z0-9]|[a-zA-Z0-9][a-zA-Z0-9\-]{0,61}[a-zA-Z0-9])\
(\.([a-zA-Z0-9]|[a-zA-Z0-9][a-zA-Z0-9\-]{0,61}[a-zA-Z0-9]))*$"

请注意,第一行(上图)末尾的反斜杠是用于分割长行的 Unix shell 语法。它不是正则表达式本身的一部分。

这只是单行上的正则表达式:

^([a-zA-Z0-9]|[a-zA-Z0-9][a-zA-Z0-9\-]{0,61}[a-zA-Z0-9])(\.([a-zA-Z0-9]|[a-zA-Z0-9][a-zA-Z0-9\-]{0,61}[a-zA-Z0-9]))*$

您还应该单独检查主机名的总长度不得超过 255 个字符。有关详细信息,请参阅 RFC-952 和 RFC-1123。


优秀的主机模式。这可能取决于一个语言的正则表达式实现,但对于 JS,它可以稍微调整以更简洁而不会丢失任何内容:/^[a-z\d]([a-z\d\-]{0,61}[a-z\d])?(\.[a-z\d]([a-z\d\-]{0,61}[a-z\d])?)*$/i
这就是我想要的,但“@”符号只允许根主机名的这个特殊字符?我是 dns 和正则表达式的新手 :(
B
Ben

要匹配有效的 IP 地址,请使用以下正则表达式:

(25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)(\.(25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)){3}

代替:

([01]?[0-9][0-9]?|2[0-4][0-9]|25[0-5])(\.([01]?[0-9][0-9]?|2[0-4][0-9]|25[0-5])){3}

解释

许多正则表达式引擎匹配 OR 序列中的第一种可能性。例如,尝试以下正则表达式:

10.48.0.200

测试

测试 goodbad 之间的差异


不要忘记 start ^ 和 end $ 或类似 0.0.0.999 或 999.0.0.0 的东西也会匹配。 ;)
是有效的字符串 start ^ 和 end $ 是必需的,但如果您正在将 IP 搜索到文本中,请不要使用它。
您确定的意外“非贪婪”也适用于其他主机名解决方案。值得将此添加到您的答案中,因为其他内容与完整的主机名不匹配。例如 ([a-zA-Z0-9]|[a-zA-Z0-9][a-zA-Z0-9\-]{0,61}[a-zA-Z0-9])(\.([a-zA-Z0-9]|[a-zA-Z0-9][a-zA-Z0-9\-]{0,61}[a-zA-Z0-9]))*([a-zA-Z0-9][a-zA-Z0-9\-]{0,61}[a-zA-Z0-9]|[a-zA-Z0-9])(\.([a-zA-Z0-9][a-zA-Z0-9\-]{0,61}[a-zA-Z0-9])|[a-zA-Z0-9]))*
编辑:在上面,在最后使用 + 而不是 * 来查看失败。
A
Alex Volkov

我似乎无法编辑置顶帖子,所以我将在此处添加我的答案。

对于主机名 - 简单的答案,这里的 egrep 示例 - http://www.linuxinsight.com/how_to_grep_for_ip_addresses_using_the_gnu_egrep_utility.html

egrep '([[:digit:]]{1,3}\.){3}[[:digit:]]{1,3}'

虽然这种情况没有考虑到第一个八位字节中的 0 之类的值,以及大于 254(IP 地址)或 255(网络掩码)的值。也许额外的 if 语句会有所帮助。

至于合法的 dns 主机名,前提是您只检查 Internet 主机名(而不是 Intranet),我编写了以下片段,混合了 shell/php,但它应该适用于任何正则表达式。

首先去ietf网站,下载并解析合法一级域名列表:

tld=$(curl -s http://data.iana.org/TLD/tlds-alpha-by-domain.txt |  sed 1d  | cut -f1 -d'-' | tr '\n' '|' | sed 's/\(.*\)./\1/')
echo "($tld)"

这应该会给你一个很好的代码来检查顶级域名的合法性,比如 .com .org 或 .ca

然后根据此处找到的指南添加表达式的第一部分 -- http://www.domainit.com/support/faq.mhtml?category=Domain_FAQ&question=9 (任何字母数字组合和“-”符号,破折号不应该在八位字节的开头或结尾。

(([a-z0-9]+|([a-z0-9]+[-]+[a-z0-9]+))[.])+

然后将它们放在一起(PHP preg_match 示例):

$pattern = '/^(([a-z0-9]+|([a-z0-9]+[-]+[a-z0-9]+))[.])+(AC|AD|AE|AERO|AF|AG|AI|AL|AM|AN|AO|AQ|AR|ARPA|AS|ASIA|AT|AU|AW|AX|AZ|BA|BB|BD|BE|BF|BG|BH|BI|BIZ|BJ|BM|BN|BO|BR|BS|BT|BV|BW|BY|BZ|CA|CAT|CC|CD|CF|CG|CH|CI|CK|CL|CM|CN|CO|COM|COOP|CR|CU|CV|CX|CY|CZ|DE|DJ|DK|DM|DO|DZ|EC|EDU|EE|EG|ER|ES|ET|EU|FI|FJ|FK|FM|FO|FR|GA|GB|GD|GE|GF|GG|GH|GI|GL|GM|GN|GOV|GP|GQ|GR|GS|GT|GU|GW|GY|HK|HM|HN|HR|HT|HU|ID|IE|IL|IM|IN|INFO|INT|IO|IQ|IR|IS|IT|JE|JM|JO|JOBS|JP|KE|KG|KH|KI|KM|KN|KP|KR|KW|KY|KZ|LA|LB|LC|LI|LK|LR|LS|LT|LU|LV|LY|MA|MC|MD|ME|MG|MH|MIL|MK|ML|MM|MN|MO|MOBI|MP|MQ|MR|MS|MT|MU|MUSEUM|MV|MW|MX|MY|MZ|NA|NAME|NC|NE|NET|NF|NG|NI|NL|NO|NP|NR|NU|NZ|OM|ORG|PA|PE|PF|PG|PH|PK|PL|PM|PN|PR|PRO|PS|PT|PW|PY|QA|RE|RO|RS|RU|RW|SA|SB|SC|SD|SE|SG|SH|SI|SJ|SK|SL|SM|SN|SO|SR|ST|SU|SV|SY|SZ|TC|TD|TEL|TF|TG|TH|TJ|TK|TL|TM|TN|TO|TP|TR|TRAVEL|TT|TV|TW|TZ|UA|UG|UK|US|UY|UZ|VA|VC|VE|VG|VI|VN|VU|WF|WS|XN|XN|XN|XN|XN|XN|XN|XN|XN|XN|XN|YE|YT|YU|ZA|ZM|ZW)[.]?$/i';

    if (preg_match, $pattern, $matching_string){
    ... do stuff
    }

您可能还想添加一个 if 语句来检查您检查的字符串是否短于 256 个字符 -- http://www.ops.ietf.org/lists/namedroppers/namedroppers.2003/msg00964.html


-1 因为这匹配虚假 IP 地址,例如“999.999.999.999”。
“虽然这种情况没有考虑到第一个八位字节中的 0 之类的值,以及大于 254(IP 地址)或 255(网络掩码)的值。”
我看到你的回答是合格的,是的。我投了反对票,因为您的那部分答案仍然没有用。
a
abarnert

值得注意的是,大多数语言的库都可以为您执行此操作,通常内置在标准库中。而且这些库的更新频率可能比四年前从 Stack Overflow 答案中复制并忘记的代码要频繁得多。当然,他们通常还会将地址解析为某种可用的形式,而不是仅仅为您提供与一堆组的匹配。

例如,在 (POSIX) C 中检测和解析 IPv4:

#include <arpa/inet.h>
#include <stdio.h>

int main(int argc, char *argv[]) {
  for (int i=1; i!=argc; ++i) {
    struct in_addr addr = {0};
    printf("%s: ", argv[i]);
    if (inet_pton(AF_INET, argv[i], &addr) != 1)
      printf("invalid\n");
    else
      printf("%u\n", addr.s_addr);
  }
  return 0;
}

显然,如果您尝试查找聊天消息中的所有有效地址等功能,这些功能将无法正常工作——但即便如此,使用简单但过于热心的正则表达式来查找潜在匹配项可能会更容易,然后使用库来解析它们。

例如,在 Python 中:

>>> import ipaddress
>>> import re
>>> msg = "My address is 192.168.0.42; 192.168.0.420 is not an address"
>>> for maybeip in re.findall(r'\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}', msg):
...     try:
...         print(ipaddress.ip_address(maybeip))
...     except ValueError:
...         pass

P
Prakash Thapa

我认为这是最好的 IP 验证正则表达式。请检查一次!!!

^(([01]?[0-9]?[0-9]|2([0-4][0-9]|5[0-5]))\.){3}([01]?[0-9]?[0-9]|2([0-4][0-9]|5[0-5]))$

A
Alois Mahdal
def isValidHostname(hostname):

    if len(hostname) > 255:
        return False
    if hostname[-1:] == ".":
        hostname = hostname[:-1]   # strip exactly one dot from the right,
                                   #  if present
    allowed = re.compile("(?!-)[A-Z\d-]{1,63}(?<!-)$", re.IGNORECASE)
    return all(allowed.match(x) for x in hostname.split("."))

你能解释一下这个正则表达式吗?确切地说, (?!-), (?
@Scit,如果您的正则表达式引擎允许使用它们,请确保它不以“-”字符开头或结尾。例如,from Pythonfrom Perl
z
zangw
"^((\\d{1,2}|1\\d{2}|2[0-4]\\d|25[0-5])\.){3}(\\d{1,2}|1\\d{2}|2[0-4]\\d|25[0-5])$"

a
aliasav

这适用于有效的 IP 地址:

regex = '^([0-9]|[1-9][0-9]|[1][0-9][0-9]|[2][0-5][0-5])[.]([0-9]|[1-9][0-9]|[1][0-9][0-9]|[2][0-5][0-5])[.]([0-9]|[1-9][0-9]|[1][0-9][0-9]|[2][0-5][0-5])[.]([0-9]|[1-9][0-9]|[1][0-9][0-9]|[2][0-5][0-5])$'

M
Mohammad Shahid Siddiqui
>>> my_hostname = "testhostn.ame"
>>> print bool(re.match("^(([a-zA-Z]|[a-zA-Z][a-zA-Z0-9\-]*[a-zA-Z0-9])\.)*([A-Za-z]|[A-Za-z][A-Za-z0-9\-]*[A-Za-z0-9])$", my_hostname))
True
>>> my_hostname = "testhostn....ame"
>>> print bool(re.match("^(([a-zA-Z]|[a-zA-Z][a-zA-Z0-9\-]*[a-zA-Z0-9])\.)*([A-Za-z]|[A-Za-z][A-Za-z0-9\-]*[A-Za-z0-9])$", my_hostname))
False
>>> my_hostname = "testhostn.A.ame"
>>> print bool(re.match("^(([a-zA-Z]|[a-zA-Z][a-zA-Z0-9\-]*[a-zA-Z0-9])\.)*([A-Za-z]|[A-Za-z][A-Za-z0-9\-]*[A-Za-z0-9])$", my_hostname))
True

D
Darrell Root

新的 Network 框架为 struct IPv4Address 和 struct IPv6Address 提供了可失败的初始化程序,它们可以非常轻松地处理 IP 地址部分。在 IPv6 中使用正则表达式执行此操作对于所有缩短规则都很困难。

不幸的是,对于主机名,我没有一个优雅的答案。

请注意,网络框架是最新的,因此它可能会强制您针对最新的操作系统版本进行编译。

import Network
let tests = ["192.168.4.4","fkjhwojfw","192.168.4.4.4","2620:3","2620::33"]

for test in tests {
    if let _ = IPv4Address(test) {
        debugPrint("\(test) is valid ipv4 address")
    } else if let _ = IPv6Address(test) {
        debugPrint("\(test) is valid ipv6 address")
    } else {
        debugPrint("\(test) is not a valid IP address")
    }
}

output:
"192.168.4.4 is valid ipv4 address"
"fkjhwojfw is not a valid IP address"
"192.168.4.4.4 is not a valid IP address"
"2620:3 is not a valid IP address"
"2620::33 is valid ipv6 address"

D
Dharman
/^(?:[a-zA-Z0-9]+|[a-zA-Z0-9][-a-zA-Z0-9]+[a-zA-Z0-9])(?:\.[a-zA-Z0-9]+|[a-zA-Z0-9][-a-zA-Z0-9]+[a-zA-Z0-9])?$/

B
Bill Stephens

这是我在 Ant 中用于从 ANT_OPTS 获取代理主机 IP 或主机名的正则表达式。这用于获取代理 IP,以便在为分叉的 JVM 配置代理之前运行 Ant “isreachable”测试。

^.*-Dhttp\.proxyHost=(\w{1,}\.\w{1,}\.\w{1,}\.*\w{0,})\s.*$

那是一个 \w,它不会捕获 IP,仅在某些情况下捕获主机名。
A
Andrew

我发现这对于 IP 地址非常有效。它像最佳答案一样验证,但它也确保 ip 是隔离的,因此在 ip 之后或之前没有文本或更多数字/小数。

(?


我尝试了很多,但我无法理解这里的两件事。 1. \b 指定单词边界为什么我们使用 \b ?哪个是边界?和 2. 为什么它只适用于 {7} 据我了解,我认为它应该是 {4} 但它不起作用。或者,您可以告诉您为什么使用非捕获块。
a
ayu for u
AddressRegex = "^(ftp|http|https):\/\/([0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}:[0-9]{1,5})$";

HostnameRegex =  /^(ftp|http|https):\/\/([a-z0-9]+\.)?[a-z0-9][a-z0-9-]*((\.[a-z]{2,6})|(\.[a-z]{2,6})(\.[a-z]{2,6}))$/i

此 re 仅用于此类型验证

仅在以下情况下工作 http://www.kk.com http://www.kk.co.in

不适用于

http://www.kk.com/ http://www.kk.co.in.kk

http://www.kk.com/dfas http://www.kk.co.in/


c
chiwangc

尝试这个:

((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)

它适用于我的情况。


T
Thom Anderson

关于 IP 地址,似乎存在一些关于是否包含前导零的争论。这曾经是一种常见的做法,并且被普遍接受,所以我认为无论当前偏好如何,都应该将它们标记为有效。关于是否应该验证字符串前后的文本也存在一些歧义,我认为应该再次验证。 1.2.3.4 是一个有效的 IP,但 1.2.3.4.5 不是,而且 1.2.3.4 部分和 2.3.4.5 部分都不应该导致匹配。一些问题可以用这个表达式来处理:

grep -E '(^|[^[:alnum:]+)(([0-1]?[0-9]{1,2}|2[0-4][0-9]|25[0-5])\.){3}([0-1]?[0-9]{1,2}|2[0-4][0-9]|25[0-5])([^[:alnum:]]|$)' 

不幸的是,验证八位字节的正则表达式部分重复了,这在许多提供的解决方案中都是如此。尽管这比模式实例要好,但如果使用的正则表达式支持子例程,则可以完全消除重复。下一个示例使用 grep-P 开关启用这些功能,并且还利用了前瞻和后瞻功能。 (我选择的函数名称是 'o' 表示八位字节。我可以使用 'octet' 作为名称,但希望简洁。)

grep -P '(?<![\d\w\.])(?<o>([0-1]?[0-9]{1,2}|2[0-4][0-9]|25[0-5]))(\.\g<o>){3}(?![\d\w\.])'

如果 IP 地址位于带有句子形式的文本的文件中,则对点的处理实际上可能会产生误报,因为句点可能会跟随而不是点分符号的一部分。上面的一个变体可以解决这个问题:

grep -P '(?<![\d\w\.])(?<x>([0-1]?[0-9]{1,2}|2[0-4][0-9]|25[0-5]))(\.\g<x>){3}(?!([\d\w]|\.\d))'

p
p.s.w.g

这个怎么样?

([0-9]{1,3}\.){3}[0-9]{1,3}

9999999999.0.0.9999999999 也是如此 :) 但是对于大多数程序员来说,这种简短的方法就足够了。
-1 因为这匹配无意义的 IP 地址(如@Shebuka 所述)。
s
sirjay

在 php 上:filter_var(gethostbyname($dns), FILTER_VALIDATE_IP) == true ? 'ip' : 'not ip'


虽然此代码可能会回答问题,但通常说明代码会使答案更加有用。请edit您的回答并提供一些上下文和解释。
而且,除非我弄错了,否则 FILTER_VALIDATE_IP 是仅 PHP 的值。
k
kapa

检查主机名,例如... mywebsite.co.in、thangaraj.name、18thangaraj.in、thangaraj106.in 等,

[a-z\d+].*?\\.\w{2,4}$

-1。 OP 要求“经过良好测试以完全匹配最新的 RFC 规范”,但这不匹配,例如 *.museum,而它将匹配 *.foo。 Here’s a list 个有效 TLD。
我不确定将加号放在字符类(方括号)内是否是个好主意,此外,还有 5 个字母的 TLD(例如 .expert)。
使用 RFC 完成的最佳方法是使用系统/语言功能。 inet_aton 已经足够好了。
D
Dody

我想到了这个简单的正则表达式匹配模式,用于 IP 地址匹配 \d+[.]\d+[.]\d+[.]\d+


1111.1.1.1 不是有效的 ip。如果您不关心子网,就无法真正测试 ip 格式。您至少应该注意 ^\d{1,3}.\d{1,3}.\d{1,3}.\d{1,3} 之类的出现次数,当然这不是正确的方法。如果您有一个语言来编写脚本,那么您肯定可以访问它的网络功能。检查真实 ip 的最佳方法是告诉系统转换并将 ip 转换为正确的格式,然后检查真/假。对于 Python,我使用 socket.inet_aton(ip)。 PHP的情况你需要inet_aton($ip)
Python 用户可以在这里查看:gist.github.com/erm3nda/f25439bba66931d3ca9699b2816e796c