创建正则表达式匹配数组

java regex

在 Java 中，我试图将所有正则表达式匹配返回到一个数组，但似乎您只能检查模式是否匹配某些东西（布尔值）。

如何使用正则表达式匹配来形成与给定字符串中的正则表达式匹配的所有字符串的数组？

好问题。您寻求的信息应该是 Regex 和 Matcher 上的 Java 文档的一部分。可悲的是，事实并非如此。

真是耻辱。此功能似乎在几乎所有其他语言（具有正则表达式支持）中都是开箱即用的。

4castle

（如果您可以假设 Java >= 9，则 4castle's answer 比以下更好）

您需要创建一个匹配器并使用它来迭代地查找匹配项。

 import java.util.regex.Matcher;
 import java.util.regex.Pattern;

 ...

 List<String> allMatches = new ArrayList<String>();
 Matcher m = Pattern.compile("your regular expression here")
     .matcher(yourStringHere);
 while (m.find()) {
   allMatches.add(m.group());
 }

在此之后，allMatches 包含匹配项，如果您确实需要，可以使用 allMatches.toArray(new String[0]) 获取一个数组。

您还可以使用 MatchResult 编写帮助函数来循环匹配，因为 Matcher.toMatchResult() 返回当前组状态的快照。

例如你可以写一个惰性迭代器让你做

for (MatchResult match : allMatches(pattern, input)) {
  // Use match, and maybe break without doing the work to find all possible matches.
}

通过做这样的事情：

public static Iterable<MatchResult> allMatches(
      final Pattern p, final CharSequence input) {
  return new Iterable<MatchResult>() {
    public Iterator<MatchResult> iterator() {
      return new Iterator<MatchResult>() {
        // Use a matcher internally.
        final Matcher matcher = p.matcher(input);
        // Keep a match around that supports any interleaving of hasNext/next calls.
        MatchResult pending;

        public boolean hasNext() {
          // Lazily fill pending, and avoid calling find() multiple times if the
          // clients call hasNext() repeatedly before sampling via next().
          if (pending == null && matcher.find()) {
            pending = matcher.toMatchResult();
          }
          return pending != null;
        }

        public MatchResult next() {
          // Fill pending if necessary (as when clients call next() without
          // checking hasNext()), throw if not possible.
          if (!hasNext()) { throw new NoSuchElementException(); }
          // Consume pending so next call to hasNext() does a find().
          MatchResult next = pending;
          pending = null;
          return next;
        }

        /** Required to satisfy the interface, but unsupported. */
        public void remove() { throw new UnsupportedOperationException(); }
      };
    }
  };
}

有了这个，

for (MatchResult match : allMatches(Pattern.compile("[abc]"), "abracadabra")) {
  System.out.println(match.group() + " at " + match.start());
}

产量

在 0 b 在 1 a 在 3 c 在 4 a 在 5 a 在 7 b 在 8 a 在 10

我不建议在这里使用 ArrayList ，因为您事先不知道大小并且可能希望避免调整缓冲区大小。相反，我更喜欢 LinkedList——尽管它只是一个建议，不会让你的答案变得不那么有效。

@Liv，花点时间对 ArrayList 和 LinkedList 进行基准测试，结果可能令人惊讶。

我听到你在说什么，我知道这两种情况下的执行速度和内存占用；ArrayList 的问题是默认构造函数创建了 10 的容量——如果你通过调用 add( ) 你将不得不忍受内存分配和数组复制——这可能会发生几次。诚然，如果您只期望几场比赛，那么您的方法是更有效的方法；但是，如果您发现数组“调整大小”不止一次发生，我建议使用 LinkedList，如果您正在处理低延迟应用程序，则更是如此。

@Liv，如果您的模式倾向于产生具有相当可预测大小的匹配，并且取决于模式是稀疏匹配还是密集匹配（基于 allMatches 与 yourStringHere.length() 的长度之和），您可能可以预先计算allMatches 的大小合适。根据我的经验，LinkedList 内存和迭代效率方面的成本通常不值得，因此 LinkedList 不是我的默认姿势。但是在优化热点时，绝对值得交换列表实现以查看是否有改进。

在 Java 9 中，您现在可以使用 Matcher#results 获得一个 Stream，您可以使用它来生成一个数组（请参阅 my answer）。

4castle

在 Java 9 中，您现在可以使用 Matcher#results() 来获取 Stream<MatchResult>，您可以使用它来获取匹配的列表/数组。

import java.util.regex.Pattern;
import java.util.regex.MatchResult;

String[] matches = Pattern.compile("your regex here")
                          .matcher("string to search from here")
                          .results()
                          .map(MatchResult::group)
                          .toArray(String[]::new);
                    // or .collect(Collectors.toList())

他们没有 results() 方法，请先运行这个

@Bravo 您在使用 Java 9 吗？它确实存在。我链接到文档。

:(( java 8 有什么替代方案吗？

zb226

Java 使正则表达式过于复杂，而且它不遵循 perl 风格。查看 MentaRegex，了解如何在一行 Java 代码中实现这一点：

String[] matches = match("aa11bb22", "/(\\d+)/g" ); // => ["11", "22"]

MentaRegex 网站关闭了吗？当我访问 mentaregex.soliveirajr.com 时，它只会说“嗨”

@user64141 看起来像

user64141 现在已关闭，但可在 Internet 存档 web.archive.org/web/20130317004214/http://… 上找到

晚了四年，但我在 jar-download.com/artifacts/me.soliveirajr/menta-regex/0.9.5/… 找到了它

将链接替换为更常见的 mvnrepository.com 的链接...

walkeros

这是一个简单的例子：

Pattern pattern = Pattern.compile(regexPattern);
List<String> list = new ArrayList<String>();
Matcher m = pattern.matcher(input);
while (m.find()) {
    list.add(m.group());
}

（如果你有更多的捕获组，你可以通过它们的索引来引用它们作为 group 方法的参数。如果你需要一个数组，那么使用 list.toArray()）

pattern.matches(input) 不起作用。你必须通过你的正则表达式模式（再次！）-> WTF Java？！ pattern.matches（字符串正则表达式，字符串输入）；你的意思是pattern.matcher(input)吗？

@ElMac Pattern.matches() 是一个静态方法，您不应在 Pattern 实例上调用它。 Pattern.matches(regex, input) 只是 Pattern.compile(regex).matcher(input).matches() 的简写。

Anthony Accioly

从 Official Regex Java Trails：

        Pattern pattern = 
        Pattern.compile(console.readLine("%nEnter your regex: "));

        Matcher matcher = 
        pattern.matcher(console.readLine("Enter input string to search: "));

        boolean found = false;
        while (matcher.find()) {
            console.format("I found the text \"%s\" starting at " +
               "index %d and ending at index %d.%n",
                matcher.group(), matcher.start(), matcher.end());
            found = true;
        }

使用 find 并将生成的 group 插入您的数组/列表/任何内容。

Nikhil Kumar K

        Set<String> keyList = new HashSet();
        Pattern regex = Pattern.compile("#\\{(.*?)\\}");
        Matcher matcher = regex.matcher("Content goes here");
        while(matcher.find()) {
            keyList.add(matcher.group(1)); 
        }
        return keyList;

创建正则表达式匹配数组

关注公众号

想领先一步获取最新的外包任务吗？

相似问题

平台

支持

友情链接

联系我们