首页 > 解决方案 > 如何使用jsoup提取没有类的div?

问题描述

如何提取每个字段?我无法在没有任何课程的情况下获得 div,具有课程的 div 也随之而来。

<div class="donut-text d-lg-table-cell pt-sm pt-lg-0 pl-lg-sm">
 <div>David M. XYZ</div>
 <div class="numCEORatings">194 Ratings</div>
</div>
val field = Doc.select("div.donut-text.d-lg-table-cell.pt-sm.pt-lg-0.pl-lg-sm")
println(field.text())

//This gives both>> David M. XYZ 194 Ratings
//How to extract each

标签: scalajsouphtml-parsing

解决方案


您当前的选择器以最外层的 div 为目标。因此,当您调用 时.text,您将获得外部 div 的串联内容,并删除了 HTML 标记。

要选择内部项目,请附加*到当前选择器。

val html =
  """
      <div class="donut-text d-lg-table-cell pt-sm pt-lg-0 pl-lg-sm">
        <div>David M. XYZ</div>
        <div class="numCEORatings">194 Ratings</div>
      </div>
  """

val Doc: Document = Jsoup.parse(html)
val elements: Elements = 
  Doc.select("div.donut-text.d-lg-table-cell.pt-sm.pt-lg-0.pl-lg-sm *")

elements.toArray.foreach { el =>
  println(el)
}

如果您只想从选择中排除第二个 div,您可以使用:notCSS 选择器:

Doc.select("div.donut-text.d-lg-table-cell.pt-sm.pt-lg-0.pl-lg-sm *:not(.numCEORatings)")

推荐阅读