r - R 中大型文本文件的大型语料库对象的示例输出
问题描述
由于 3 个大文件(总共 >1gb),我有一个大的语料库对象。
清理文本后,我想在控制台上查看数据的随机样本,比如 1000 行,看看是否可以!
我找不到任何关于如何在合理的时间(1 分钟)内从语料库类中采样数据的来源。
我运行的一些代码是:
writeLines(as.character(docs), con="testing.txt")
head(strwrap(corp))
这里有很多解决方案可以可视化整个数据,但同样耗时太长。
最糟糕的部分是由于上面的代码而停止进程的唯一方法是关闭控制台!我也看了看corpus_sample
。最接近我想要的来自str()
,它给出了第一个文档的第一行,这就是它在创纪录的时间内。
这个答案似乎很有希望,但事实证明语料库对象中没有documents$texts
(corp$documents$texts
)
- 为什么似乎没有人需要这个功能?
- 有没有办法快速采样几条随机线?
附言
这里问了非常相似的问题。
解决方案
推荐阅读
- reactjs - 当用户单击 React js 中的图像或 [] 图标时,如何在全屏中预览 swiper 幻灯片?
- json - 如何使用 JSON 请求 API 发送 Solr 空间查询
- javascript - 活动时将元素移动到视口
- r - 如何根据传递给 R 中函数的参数值重新评估因子中的元素?
- data-structures - 如何在数据库中使用归并排序算法
- sql - Get customer name from table in PostgreSQL
- c++ - C++ 数组计算器
- google-signin - 是否违反谷歌政策?
- android - Flutter 问题:ListView.Builder 中的 DropDown
- android - 如何在 Android Jetpack Compose 中更改 OutlineTextField 边框宽度?