web-scraping - Openrefine 不会获取整个 html 代码
问题描述
我一直在 Wiley 中获取学术文章以收集作者信息,但获取的列不包含所有代码。
例如,如果我检查一个站点(例如https://onlinelibrary.wiley.com/doi/10.1111/1475-6773.13088),虽然有超过 100 个跨度标签,但我获取的结果有少于 30 个跨度标签。一些元标记也丢失了。
我正在专门寻找带有 citation_author 和 citation_author_institution 的元标记等元素。
解决方案
推荐阅读
- c# - 如何在 Visual Studio 的菜单栏中更改行分隔符?
- linux - 如何使阅读速度更快(如何使用 grep 代替)
- java - 使用 JSOUP 从另一个网站获取数据
- c# - 等待作为参数传递给方法的类实例的结果
- javascript - 与使用 angular 生成动态表单相关的必要建议
- ms-word - 无法自动编号 word doc 中的数字
- javascript - 如何在 Chrome 70 的 Javascript 控制台中禁用自动完成功能?
- c# - c#: string(json) 到 object(generic) 的转换添加了额外的大括号
- ios - 对成员 'collectionView' Swift 4 的模棱两可的引用
- python - Django Model ImageField upload_to 不会将函数作为参数