首页 > 解决方案 > 处理大型数据集进行分析

问题描述

我希望有人可以帮助我。我是处理大型数据集的新手,需要帮助优化运行时间和内存使用。

我正在处理 2000-2018 年间来自 30 家报纸的文章的新闻文章。整个数据集中大约有 1200 万篇文章。我正在计算文章之间的 TFIDF 和余弦相似度,并且鉴于数据约为 40GB,我不确定它的扩展性如何。

目前我只处理 1 个月的数据,虽然它有效,但速度非常慢。

虽然使用 iterator 和 gensim 以迭代方式构建字典可能有助于节省内存使用,但我仍然不确定如何减少计算没有类似文章的文章数量的时间?

3)如果有人有在熊猫中处理类似数据的经验,我应该转移到数据库还是熊猫足以完成这项任务?

谢谢 :)

标签: pythonpandassqlitedata-sciencetfidfvectorizer

解决方案


推荐阅读