首页 > 解决方案 > 从字符串中提取文本

问题描述

我关注的是 HTML 字符串 -

<html>
    <head>
        <title>Repository</title>
    </head>
    <body>
        <h2>Subversion</h2>
        <ul>
            <li>
                <a href="../">..</a>
            </li>
            <li>
                <a href="branch_A/">branch_A</a>
            </li>
            <li>
                <a href="branch_B/">branch_B</a>
            </li>
        </ul>
    </body>
</html>

为此,我想获得标签的li标签,即branch_ACount branch_B of的标签li可能会有所不同。我想得到所有这些。你能帮助我如何解析这个字符串并获取这些值吗?

注意我可以使用jsoup库来实现相同的目标,但考虑到我们的项目限制,我不能使用它。

标签: javaregexpattern-matching

解决方案


您可以为此使用 HTML 解析器。在下面的代码中使用了 jsoup ( https://www.baeldung.com/java-with-jsoup ),而且它快速简单。

   Document doc = Jsoup.connect(fix url here).get();
   doc.select(tag you want).forEach(System.out::println);

此处讨论其他工具:https ://tomassetti.me/parsing-html/


推荐阅读