首页 > 解决方案 > R 中大型文本文件的大型语料库对象的示例输出

问题描述

由于 3 个大文件(总共 >1gb),我有一个大的语料库对象。

清理文本后,我想在控制台上查看数据的随机样本,比如 1000 行,看看是否可以!

我找不到任何关于如何在合理的时间(1 分钟)内从语料库类中采样数据的来源。

我运行的一些代码是:

writeLines(as.character(docs), con="testing.txt")

head(strwrap(corp))

这里有很多解决方案可以可视化整个数据,但同样耗时太长。

最糟糕的部分是由于上面的代码而停止进程的唯一方法是关闭控制台!我也看了看corpus_sample。最接近我想要的来自str(),它给出了第一个文档的第一行,这就是它在创纪录的时间内。

这个答案似乎很有希望,但事实证明语料库对象中没有documents$textscorp$documents$texts

  1. 为什么似乎没有人需要这个功能?
  2. 有没有办法快速采样几条随机线?

附言

这里问了非常相似的问题。

标签: rtext-miningtmcorpus

解决方案


推荐阅读