database - 寻找数据集:关于新闻文章的元数据,跨越 15 年以上
问题描述
有谁知道包含有关新闻文章的元数据的数据集?
基本数据集要求:
- 100k+ 篇新闻文章
- 涵盖 5 种以上的出版物
- 跨越 15 年以上的文章
- 每篇文章的元数据,作者姓名+出版年份
- 必须合法获取(没有违反 TOS 的抓取数据)
我浏览了许多潜在的来源。这里有些例子:
解决方案
推荐阅读
- javascript - 如何避免危险的SetInnerHTML?
- python - 连接两列并获取新列
- php - 如何在laravel中提取没有前导源路径的zip文件?
- java - 如何使用 FileOutputStream 在文件中写入整数?
- android - 我如何开发一个可以在构建虹膜扫描仪中使用该设备的 android 应用程序
- c++ - 如何在 2D 引擎中渲染超过 99 个图块
- elasticsearch - 未知的 BaseAggregationBuilder [bucket_sort] - 弹性
- python-3.x - 多个列表的列表理解 Python 2.7/3
- php - 如何在opencart中批量手动将产品分配到类别
- python-3.x - 翻译来自多个数据框列的数据以创建句子