首页 > 解决方案 > Openrefine 不会获取整个 html 代码

问题描述

我一直在 Wiley 中获取学术文章以收集作者信息,但获取的列不包含所有代码。

例如,如果我检查一个站点(例如https://onlinelibrary.wiley.com/doi/10.1111/1475-6773.13088),虽然有超过 100 个跨度标签,但我获取的结果有少于 30 个跨度标签。一些元标记也丢失了。

我正在专门寻找带有 citation_author 和 citation_author_institution 的元标记等元素。

标签: web-scrapingopenrefinegrel

解决方案


推荐阅读