scala - 如何使用jsoup提取没有类的div?
问题描述
如何提取每个字段?我无法在没有任何课程的情况下获得 div,具有课程的 div 也随之而来。
<div class="donut-text d-lg-table-cell pt-sm pt-lg-0 pl-lg-sm">
<div>David M. XYZ</div>
<div class="numCEORatings">194 Ratings</div>
</div>
val field = Doc.select("div.donut-text.d-lg-table-cell.pt-sm.pt-lg-0.pl-lg-sm")
println(field.text())
//This gives both>> David M. XYZ 194 Ratings
//How to extract each
解决方案
您当前的选择器以最外层的 div 为目标。因此,当您调用 时.text
,您将获得外部 div 的串联内容,并删除了 HTML 标记。
要选择内部项目,请附加*
到当前选择器。
val html =
"""
<div class="donut-text d-lg-table-cell pt-sm pt-lg-0 pl-lg-sm">
<div>David M. XYZ</div>
<div class="numCEORatings">194 Ratings</div>
</div>
"""
val Doc: Document = Jsoup.parse(html)
val elements: Elements =
Doc.select("div.donut-text.d-lg-table-cell.pt-sm.pt-lg-0.pl-lg-sm *")
elements.toArray.foreach { el =>
println(el)
}
如果您只想从选择中排除第二个 div,您可以使用:not
CSS 选择器:
Doc.select("div.donut-text.d-lg-table-cell.pt-sm.pt-lg-0.pl-lg-sm *:not(.numCEORatings)")
推荐阅读
- reactjs - 在另一个应用程序的“打开方式”对话框中显示 React Native 应用程序
- internet-explorer - 如何在 IE 11 中使翡翠页兼容
- python-3.x - Flask PyMongo 连接错误:未知选项连接
- python - 如何修复函数中的“未定义”错误
- google-apps-script - 有没有办法根据日期显示不同的值?
- prolog - 由于运算符表达式,Prolog 编译器给出语法错误
- angular - Facebook SDK FB.login() 对话框未出现在 Angular 应用程序中
- firemonkey - 更改表单颜色 (FMX, Win32)
- android - Android获取资产文件夹的URI
- sql - SQL Server - 打印 * 列的不同计数